Создание паттерна по выравниванию семейства белков

На Главную
Четвертый семестр
     

Паттерн из банка Prosite

ID заданного белка - RS8_BACSU.
В банке Prosite находится паттерн PS00053 :
[GE]-x(2)-[LIV](2)-[STY]-[ST]-{A}-x-G-[LIVM](2)-x(4)-[AG]-[KRHAYIL]
Паттерн описывает семейство рибосомальных белоков S8, входящих в состав малой субъединицы рибосомы. В Escherichia coli, S8 связывается с 16S рибосомальной РНК. В это семейство, на основании сходства последовательностей, объединяяют белки архей, бактерий, высших и низших растений, животных и некоторых грибов.
Паттерн описывает С-коцевой консервативный участок.
С помощью данного паттерна находятся 948 последовательностеи из Swiss-Prot.
64 последовательности не находятся.
Точность (Precision = true hits / (true hits + false positives)) : 99.58 %
Чувствительность (Recall = true hits / (true hits + false negatives)) : 93.65 %

Создание паттерна для поиска белков подсемейства из отдела Firmicutes

Выборка белков бактерий из отдела Firmicutes : RS8_BACAN, RS8_BACSU, RS8_GEOKA, RS8_STAES, RS8_LISMO, RS8_LACAC, RS8_ENTFA, RS8_THETN, RS8_FINM2, RS8_STAA1.

Контрольная выыборка (из других таксонов) : RS8_BIFAA (Actinobacteria), RS8_AMOA5, RS8_AZOPC(Bacteroidetes), RS8_CHLPN, RS8_CHLTR (Chlamydiae), RS8_GLOVI, RS8_PROM0 (Cyanobacteria),RS8_DESVV, RS8_RHIE6 (Proteobacteria), RS8_LEPIC (Spirochaetes).

Выравнивание RS8.msf :



Для посторения паттерна нужно выбрать позиции, консервативные внутри группы Firmicutes (отмечена синим) и неконсервативные внутри других групп. Рассмотрим участки

41 - 54 : [LK]-[RSKD]-[E]-[G]-[F]-[IV]-[RKD]-[GADN]-[FYV]-[NE]-[VEYF]-[TIAV]-[ED]-[D]
71 - 98 : [E]-[KR]-[V]-[I]-[ST]-[GN]-[LI]-[K]-[R]-[I]-[S]-[K]-[P]-[G]-[L]-[R]-[VNA]-[Y]-[AV]-[KRS]-[ASH]-x-[ED]-[VLM]-[P]-[KR]-[V]-[L]

Оба паттерна находят однии и те же белки по всем бактериям и внутри таксона Firmicutes (85 и 64 находки соответственно). Однако, с помощью паттерна PS00053 в таксоне Firmicutes находится не только эти последовательности, но и другие (всего 160 находок). При ослаблении паттренов, количество находок, как верных, так и ошибочных, возрастало, и, в результате, не удалось достичь достаточного уровня совапдения списков находок. Вероятно, эти участки малоконсервативны, и по небольшой выборке белков трудно составить хороший паттерн.

Для построения паттерна был выбран участок, состоящий из фрагмента домена из ProSite и соединенного с ним малоконсервативного участка. Из последовательностей, найденных по этом паттерну выбрали несколко неправильно найденых и добавили их в выравнивание. (отмечены зеленым). Несколко последовательностей, найденых PS00053 и не найденных данным паттерном также добавили в выравнивание (отмечены розовым).



Полученый паттерн скорректировали исходя из нового выравнивания :

90 - 113 : [KRS]-{YT}-{KRA}-{K}-x-[P]-[KR]-[V]-[L]-[GN]-[G]-[L]-[G]-x-[A]-[LIV](2)-[S]-[T]-[S]-{SR}

Находит 164 последовательности.
TP = 146;
FP = 18;
FN = 14;
Чувствительность TP/(TP+FN) = 91,25%;
Селективность TP/(TP+FP) = 89,02%;