Во множественном выравнивании, полученном на прошлом занятии с помощью muscle, выберу фрагмент длиной в 20 а.о. для дальнейшего исследования.
Рассмотрим выбранный фрагмент множественного выравнивания и создадим 3 паттерна: Первый паттерн будет в точности являться фрагментом последовательности белка SYC_ECOLI (то есть только одной из последовательностей выравнивания). Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки Вашей выборки, и только их. Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими. В сильный паттерн включу все позиции выбранного фрагмента выравнивания, а в каждой позиции (кроме, разумеется, тех, в которых оказались гэпы) разрешу все буквы, встретившиеся в какой-либо из последовательностей. При создании слабого паттерна воспользуюсь следующими приёмами:
– в позициях, в которых все 5 букв оказались разными, заменю 5 букв в квадратных скобках буквой X; – сокращу паттерн, убрав по 2–3 позиции с каждого из концов; – вместо, например, [EQDA] напишу {WY}.Проведу поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.
Характеристика паттерна | Паттерн | Количество последовательностей банка Swiss-Prot, в которых найден мотив, удовлетворяющий паттерну? | Все ли последовательности из выравнивания найдены? |
Фрагмент последовательности | G-G-E-A-F-E-A-R-F-I-E-A-M-D(3)-F-N-T-P | 25 | Нет, только мой белок(SYC_ECOLI) |
Сильный | [GEP]-X(0,1)-[EQDA]-[YNQAEV]-[FY]-[IVLE]-[EAIS]-[QTADKR]-F-[MRKTI]-[MEATSD]-[AV]-M-[ND]-[ND]-D-F-N-T-P | 62 | Все найдены |
Слабый | {WY}-X-[FY]-[IVLE]-[IEAS]-X-F-X(2)-[AV]-M-[DN]-[DN]-D-F | 116 | Все найдены |
Когда ищем последовательности по паттерну - фрагмент последовательности, не находятся все последовательности выравнивания, т.к. паттерн составлен на поиск строго определенной последовательности без вариантов а.о. Использование символа «{}» очень сильно увеличивает число найденных последовательностей, но это и логично, т.к. указав [EQDA], мы исключаем еще 16 а.о. В последнем поиске нахожу все белки из выравнивания.
Найду в последовательности белка SYC_ECOLI все мотивы, описанные в PROSITE, в том числе неспецифичные (часто встречающиеся).
Идентификатор документа PROSITE (AC) | Название мотива | Краткое описание мотива | Тип подписи (паттерн, профиль) | Паттерн (регулярное выражение) | Специфична ли подпись? | Сколько мотивов нашлось в белке? |
PS00008 | MYRISTYL | Сайт N-миристоилирования | паттерн | G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} | неспецифична | 4 |
PS00006 | CK2_PHOSPHO_SITE | Сайт казеин киназы II фосфорилирования | паттерн | [ST] - x(2) - [DE] | неспецифична | 4 |
PS00001 | ASN_GLYCOSYLATION | Сайт N-гликозиляции | паттерн | N - {P} - [ST] - {P} | неспецифична | 2 |
PS00005 | PKC_PHOSPHO_SITE | Сайт фосфорилирования протеин киназы C | паттерн | [ST] - x - [RK] | неспецифична | 4 |
PS00029 | LEUCINE_ZIPPER | Паттерн лейциновой застежки | паттерн | L - x(6) - L - x(6) - L - x(6) - L | неспецифична | 1 |
PS00007 | TYR_PHOSPHO_SITE | Сайт фосфорилирования тирозин киназы | паттерн | [RK] - x(2) - [DE] - x(3) - Y or [RK] - x(3) - [DE] - x(2) - Y | неспецифична | 1 |
PS00004 | CAMP_PHOSPHO_SITE | Сайт фосфорилирования цАМФ- и цГМФ-зависящих протеин киназ | паттерн | [RK](2) - x - [ST] | неспецифична | 1 |
Паттерн говорит, какие а/к могут встречаться в белковой последовательности. Мотив в аминокислотной последовательности ? набор консервативных остатков, важных для функции белка и расположенных на определенном расстоянии друг от друга в последовательности. Обратим внимание на "Exclude patterns with a high probability of occurrence". Когда в нем стоит галочка, то выдаются "специфичные" мотивы — те, которые отвечают семействам белков. Если галочки нет, то – все виды мотивов, в том числе "неспецифичные" (часто встречающиеся мотивы).
Второй семестр