Hа Главную
Четвертый Семестр
Kodomo Home

Создание паттерна по выравниванию семейства белков

  1. Паттерн рибосомального белка RS9_BACSU
    В банке ProSite был найден один паттерн для белка RS9_BACSU - PS00360 (RIBOSOMAL_S9):
    [GS]-G(2)-x(2)-[GSA]-[QK]-x(2)-[SA]-x(3)-[GSA]-x-[GSTAV]-[KR]-[GSALVD]-[LIFV]
    Паттерн (PS00360) выделяет семейство рибосомальных белков S9 которые входят в состав малой субъединицы. В центральной части белков данной группы содержится много консервативных заряженных остатков, именно поэтому в качестве паттерна был выбран именно он.

    Количество ложных находок: 0
    Количество ненайденных последовательностей: 11
    Точность: 100%
    Чувствительность: 98.51%

  2. Создание паттерна для поиска белков подсемейства
    Для создания паттерна было создано две выборки белков. Из семейства Firmicutes и контрольная. Лист файл
    Последовательности данных белков были выровнены и записаны в fasta файл.
    В отделе Firmicutes паттерном PS00360 было найдено 147 записей. При помощи моего паттерна:
    [FY]-D-X(3)-[NR]-V-x(1)-G(3)-x(2)-G-Q-x(2)-A-[VI]-R-[HL]-G-[VI]-x(1)-R-A-L-[VIL]
    по всей базе данных было найдено 169. Сравнение данных показало, что правильно идентифицировано - 121 последовательность.
    Мой паттерн имеет следующие характеристиками:
    Чувствительность = TP / (TP+FN)=84%
    Сверхпредсказание = FP/ (FP+TP)=24%
    Недопредсказание = FN / (TP+FN)=15%
    Создание паттерна:
    1. Нашел участок с высокой консервативностью и консервативностью только по семейству Firmicutes.
    2. Построил очень сильный паттерн для данного участка, затем постепенно ослаблял его
    3. Редактировал паттерн удаляя и добавляя необходимые последовательности

    К сожалению повысить параметры не удавалось, любое изменение приводило к ухудшениям. Скорее всего надо изначально было выбирать иной участок последовательности.

© Кузнецов Виктор Петрович