Мотивы, паттерны и профили



Упражнение 1. Создание паттернов аминокислотных последовательностей

 Импортируем в GenDoc множественное выравнивание, полученное на предыдущем занятии с помощью muscle. Выберем фрагмент выравнивания длиной 8–20 а.о. для дальнейшего исследования. Картинка с изображением выбранного фрагмента множественного выравнивания:



Открыть изображение.

Фрагмент включает 16 аминокислот с 144 по 160 а.о.(по RECQ_ECOLI).

 Теперь рассмотрим выбранный фрагмент и создадим 3 паттерна:
  1. Первый паттерн в точности является фрагментом последовательности Вашего белка (то есть только одной из последовательностей выравнивания)
  2. Второй ("сильный") паттерн надо постараться построить так, чтобы он распознавал все белки Вашей выборки, и только их (другой вопрос, что паттерн будет находить в действительности:)
  3. Третий ("слабый") паттерн надо создать на основе второго, сделав требования к последовательности более мягкими.


Таблица паттернов:

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из выравнивания найдены?
Фрагмент последовательности (по RECQ_ECOLI)  AVDEAHCISQWGHDFRP  в 2-х  Нет, из выравнивания найдена лишь для RECQ_ECOLI, другая последовательность найдена для RECQ_SALTY, но я не включила этот белок во множественное выравнивание из-за высокого процента идентичности: 94%
Сильный  [VMA]-[MLIV]-D-E-A-[DH]-[EC]-[MLI]-[LVS]-[NQE]-[MW]-G-[FDH]-X(0,3)  в 20  Найдены все.
Слабый  {DENPQRS}-D-E-A-[DHEKR]-{ILV}-[MLI]-[LVS]-[NQE]-[MW]-G-{AGS}  в 26  Найдены все.


 Ввод самого первого паттерна в окошко поиска по мотивам привело к находке всего лишь 2-х последовательностей: RECQ_ECOLI и RECQ_SALTY. Можно предположить, что этот паттерн находит самых близких гомологов (процент идентичности второго составляет 94 %).

По более сильному паттерну в базе данных PROSITE найдено 20 последовательностей, из них: 10 - разные виды одного рода Bacillus, краткое описание мотива для них совпадает: DEAD-box ATP-dependent RNA helicase cshA. Согласно BLASTP 10 из представленных 12 белков имеют E-value от 1e-18 до 7e-04, если брать в качестве строгого критерия гомологии e-value=0,001, можно утверждать о достоверности гомологии представленных белков. Помимо рода Bacillus по сильному паттерну получены последовательности следущих родов: Haemophilus (RECQ_HAEIN), Pasteurella (RECQ_PASMU), Pasteurella (RECQ_PASMU), Salmonella (RECQ_SALTY), Synechocystis (RECQ_SYNY3), Homo (WRN_HUMAN) и Mus (WRN_MOUSE). 6 из белков относятся к одному семейству с RECQ_ECOLI.

По слабому паттерну получено 26 последовательностей. К списку белков, полученных по сильному критерию, прибавляются белки следующих родов: Geobacillus (CSHA_GEOKA), Ustilago (DBP7_USTMA), Streptococcus (EXP9_STRPN и его штамм EXP9_STRR6), Methanocaldococcus (H669_METJA), Arabidopsis (RH18_ARATH).

Упражнение 2. Все описанные в PROSITE мотивы в заданном белке RECQ_ECOLI.

Найдём в последовательности белка все мотивы, описанные в PROSITE, в том числе неспецифичные (часто встречающиеся).

Результаты поиска представлены в таблице:

-
Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
 PS51192   HELICASE_ATP_BIND_1  Superfamilies 1 and 2 helicase ATP-binding type-1 domain profile (суперсемейство 1 и 2 геликаз АТФ-связывающего типа-1)  профиль  -  специфична  1
 PS51194  HELICASE_CTER  Superfamilies 1 and 2 helicase C-terminal domain profile (суперсемейство 1 и 2 геликаз профиля С-терминального домена)  профиль  -  специфична  1
 PS50967  HRDC  HRDC domain profile (профиль HRDC профиля домена)  профиль  -  специфична  1
 PS00005  PKC_PHOSPHO_SITE  Protein kinase C phosphorylation site (сайт С-фосфориляции белка Киназа)  паттерн  [ST]-x-[RHL]  неспецифична  4
 PS00006  CK2_PHOSPHO_SITE  Casein kinase II phosphorylation site (Сайт фосфориляции Казеина киназы II)  паттерн  [ST]-x(2)-[DE]  неспецифична  7
 PS00001  ASN_GLYCOSYLATION  сайт N-гликосилатирования  паттерн  [NLE]-[ST]-[TS]-[QE]  неспецифична  1
 PS00007   TYR_PHOSPHO_SITE  сайт фосфорилирования киназы тирозина     Rni.Esy.Y  неспецифична  1
PS00008 MYRISTYL Сайт N-миристоилирования паттерн G-{EDRKHPFYW}-x(2)-[STAGCN]-{P} неспецифична  8