Паттерны и профили

Создание паттернов аминокислотных последовательностей

Во множественном выравнивании, полученном на прошлом занятии с помощью muscle, выберу фрагмент длиной в 20 а.о. для дальнейшего исследования.

Рассмотрим выбранный фрагмент множественного выравнивания и создадим 3 паттерна: Первый паттерн будет в точности являться фрагментом последовательности белка SYC_ECOLI (то есть только одной из последовательностей выравнивания). Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки Вашей выборки, и только их. Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими. В сильный паттерн включу все позиции выбранного фрагмента выравнивания, а в каждой позиции (кроме, разумеется, тех, в которых оказались гэпы) разрешу все буквы, встретившиеся в какой-либо из последовательностей. При создании слабого паттерна воспользуюсь следующими приёмами:

 – в позициях, в которых все 5 букв оказались разными, заменю 5 букв в квадратных скобках буквой X; 
 – сокращу паттерн, убрав по 2–3 позиции с каждого из концов;
 – вместо, например, [EQDA] напишу {WY}.
Проведу поиск последовательностей банка Swiss-Prot, включающих мотивы, соответствующие каждому из полученных паттернов.

Таблица сравнения, полученных паттернов:

Характеристика паттерна Паттерн Количество последовательностей банка Swiss-Prot, в которых найден мотив, удовлетворяющий паттерну? Все ли последовательности из выравнивания найдены?
Фрагмент последовательности G-G-E-A-F-E-A-R-F-I-E-A-M-D(3)-F-N-T-P 25 Нет, только мой белок(SYC_ECOLI)
Сильный [GEP]-X(0,1)-[EQDA]-[YNQAEV]-[FY]-[IVLE]-[EAIS]-[QTADKR]-F-[MRKTI]-[MEATSD]-[AV]-M-[ND]-[ND]-D-F-N-T-P 62 Все найдены
Слабый {WY}-X-[FY]-[IVLE]-[IEAS]-X-F-X(2)-[AV]-M-[DN]-[DN]-D-F 116  Все найдены

Когда ищем последовательности по паттерну - фрагмент последовательности, не находятся все последовательности выравнивания, т.к. паттерн составлен на поиск строго определенной последовательности без вариантов а.о. Использование символа «{}» очень сильно увеличивает число найденных последовательностей, но это и логично, т.к. указав [EQDA], мы исключаем еще 16 а.о. В последнем поиске нахожу все белки из выравнивания.

Создание паттернов аминокислотных последовательностей

Найду в последовательности белка SYC_ECOLI все мотивы, описанные в PROSITE, в том числе неспецифичные (часто встречающиеся).

Таблица мотивов в белке SYC_ECOLI:

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична 4
PS00006 CK2_PHOSPHO_SITE Сайт казеин киназы II фосфорилирования паттерн  [ST] - x(2) - [DE] неспецифична 4
PS00001 ASN_GLYCOSYLATION Сайт N-гликозиляции паттерн N - {P} - [ST] - {P} неспецифична 2
PS00005 PKC_PHOSPHO_SITE Сайт фосфорилирования протеин киназы C паттерн [ST] - x - [RK] неспецифична 4
PS00029 LEUCINE_ZIPPER Паттерн лейциновой застежки паттерн L - x(6) - L - x(6) - L - x(6) - L неспецифична 1
PS00007 TYR_PHOSPHO_SITE Сайт фосфорилирования тирозин киназы паттерн [RK] - x(2) - [DE] - x(3) - Y or [RK] - x(3) - [DE] - x(2) - Y неспецифична 1
PS00004 CAMP_PHOSPHO_SITE Сайт фосфорилирования цАМФ- и цГМФ-зависящих протеин киназ паттерн [RK](2) - x - [ST] неспецифична 1

Паттерн говорит, какие а/к могут встречаться в белковой последовательности. Мотив в аминокислотной последовательности ? набор консервативных остатков, важных для функции белка и расположенных на определенном расстоянии друг от друга в последовательности. Обратим внимание на "Exclude patterns with a high probability of occurrence". Когда в нем стоит галочка, то выдаются "специфичные" мотивы — те, которые отвечают семействам белков. Если галочки нет, то – все виды мотивов, в том числе "неспецифичные" (часто встречающиеся мотивы).

Второй семестр
На начальную страницу


©Пискунова Юлия 2008