На главную страницу второго семестра.

Создание паттернов для поиска и распознавания аминокислотных последовательностей.


Рис.1 Изображение фрагмента выравнивания, по которому строились паттерны. Использовалось шесть белков: ARGB_ECOLI (мой белок), и предположительно его ортологи: ARGB_MANSM, ARGB_PASMU, ARGB_BUCAI, ARGB_BUCAP, ARGB_PHOLL. Раскраска следующая: желтым выделены столбцы, в которых аминокислоты все совпадают, розовым - сопадают пять аминокислот, зеленым - совпадают четыре аминокислоты. Выравнивание сделано с помощью программы muscle.


На рис.1 желтым цветом выделен ID моего белка.

Для проведения множественого выравнивания выбраны следующие ортологи белка ARGB_ECOLI с процентом идентичности в районе 40-80%, удовлетворяющие требованиям задания:
  1. ARGB_MANSM
  2. ARGB_PASMU
  3. ARGB_BUCAI
  4. ARGB_BUCAP
  5. ARGB_PHOLL

Поиск ортологов осуществлялся с помощью программы BLAST с установками поиска по умолчанию. Критерием выбора ортологов среди найденных гомологов являлось присутствие в ID белка названия ARGB. Полные аминокислотные последовательности ортологов и моего белка приведены здесь. Множественное выравнивание было проведено с помощью программы muscle (см. результаты выравнивания).

Табл.1 Результаты выполнения задания.


Характеристика паттерна.

Паттерн.

Количество последовательностей, в которых найден мотив, удовлетворяющий паттерну.

Количество последовательностей моего выравнивания, найденные по паттерну.

Фрагмент последовательности ARGB_ECOLI.

IITDGMIVKVNAALDAARTL

8 (в том числе и последовательность моего белка ARGB_ECOLI

1 (ARGB_PHOLL)

Сильный.

[IV]-I-T-[DN]-G-M-[IV]-V-K-V-[NR]-A(2)-L-[DE]-A(2)-[RK]-[TIVM]-L

9 (в том числе и последовательность моего белка ARGB_ECOLI

Найдены все пять последовательностей ортологов ARGB_ECOLI из моего выравнивания.

Слабый.

[DN]-G-[IMVL](3)-[KR]-[ILMV]-{IVMLWFY}-A(2)-[IVLM]-[DE]

19 (в том числе и последовательность ARGB_ECOLI

Найдены также ортологи моего белка из моего выравнивания (пять штук). Причем все найденные белки - ортологи в нашем приближении (то есть cовпадают названия белков из разных организмов).

Очень слабый.

[DN]-G-[IVML](3)-[RK]-[IMVL]-{IVMLWFY}

139 (включая и мой белок).

Найдены также ортологи моего белка из выравнивания (5 шт.), но при этом также самые разнообразные белки: как ортологи, так и нет. Например с названиями: ATG11_CANAL, DNLJ_AQUAE, PYRB_PROAC и др.

*Комментарии
Вышепредставленные паттерны созданы следующим образом. В ячейке "Фрагмент последовательности ARGB_ECOLI" использован в качестве паттерна полный фрагмент моего белка из выравнивания. В ячейке "Сильный" помещен паттерн, соответствующий выравниванию: то есть на соответствующих позициях паттерна стоят аминокислоты, встречаемые в выравнивании шести белков (включая и мой белок) на тех же позициях. В ячейке "Слабый" помещен паттерн, на мой взгляд, более "раскрепощенный", чем предыдущие. Во-первых, паттерн сокращен на восемь остатков: на три аминокислоты с начала сильного паттерна и на четыре - с конца. Во-вторых, на позициях, где встречаются аминокислоты, вроде Val, Met, Leu, Ile, разрешены любые из них, так как они структурно взаимозаменяемы; аналагично на позиции Lys предложено использовать [KR], так как в первом приближении можно считать Lys и Arg похожими аминокислотами; вместо [NR] у сильного паттерна, я предлагаю использовать {IVMLFWY}, подразумевая, что на данной позиции не может находиться больших и средних по размерам боковой группы, гидрофобных аминокислот, но разрешены заряженные и полярные. Наконец, в ячейке "Очень слабый" представлен паттерн наиболее "свободный": получен из слабого паттерна уменьшением длины на шесть остатков с конца фрагмента. Теперь обсудим результаты:
  1. Во-первых, сравним между собой сильный и слабый паттерны и полученные результаты поиска белков по этим фрагментам. Действительно, кроме отличия в длинах почти в два раза, паттерны довольно похожи: отличия сводятся к тому, что в слабом паттерне разрешены взаимозаменяемые аминокислоты и на восьмой позиции - любая заряженная/полярная аминокислота. Но важно то, что в слабом паттерне отсутствует пара аланинов на 16- и 17- позициях ("попали под сокращение"). Но остались другие аланины: на позиции 9- и 10- паттерна. Причем результаты поиска отличаются лишь в два раза: фактически пропорционально уменьшению длины паттерна и содержания аланинов (эти величины также уменьшаются в два раза). Но стоит учесть, что все находки являются также ортологами ARGB_ECOLI и обнаруженные у них паттерны расположены на C-конце в одинаковых позициях: в районе 211 - 222 аминокислот. Таким образом я хочу показать важную роль малых аминокислот (Ala, Gly), участвующих в формировании глобулы белка. Также я решил посмотреть на структуре моего белка, где расположены аминокислотные остатки слабого и сильного паттернов. По удивительной случайности (без каких-то либо подыгрываний с моей стороны) они попали на альфа-спираль, участвующей в формировании укладки Россмана и участка связывания ADP. Причем, как можно заметить по структуре, консервативные аланины расположены на том гребне спирали, который обращён к другой спирали: то есть формируют гидрофобный контакт и причем очень тесный. И выравнивание нам показывает, что аминокислоты, подчиняющиеся ряду i, i+4 (лежат на одном гребне), гидрофобны (почти все), консервативны и включают в себя все аланины: [DN] - V - A - A - L (первый гребень), G - K - A - A (второй гребень). Так я хочу доказать исключительную роль аланинов в этих паттернах. Причем я решил создать ещё один паттерн: G-[IMVL](3)-[KR]-[ILMV]-{IVMLWFY}-[GVA](2)-[IVLM]-[KRNQDE]-[GVSA](2), в котором учтена важность нахождения маленьких аминокислот на позиции аланинов и полярных аминокислот на 11-ой позиции. Несмотря на видимую раскрепощенность паттерна, он все равно нашел 19 белков, все из которых оказались ортологами. Но уже при использовании еще более слабого паттерна [SVGA]-[IMVL](3)-[KR]-[ILMV]-{IVMLWFY}-[GVSA](2) в банке нашлось 245 белков, из которых уже 20 были ортологами.
  2. Во-вторых, если сравнить между собой слабый и очень слабый паттерны и полученные результаты поиска белков по этим фрагментам, можно заметить следующее. В очень слабом паттерне я решил убрать все консервативные аланины, оставив лишь 8-мь аминокислот. И результаты поиска по нему просто ошеломительные: количество найденных белков возросло до 139 (что в 7 раз больше, чем по слабому паттерну). Причем в выдаче PROSITE оказались совершенно негомологичные белки: DNA-лигаза, ATP-синтаза, даже каким-то образом попался аполипопротеин В человека: Apo B-100!! Такие "классные" результаты поиска ещё раз доказывают важную структурную роль маленьких аминокислот на этом участке. Поэтому, видимо можно использовать этот фрагмент, включающий обе пары аланинов и глицин на пятой позиции, в качестве паттерна для поиска возможных гомологов ARGB_ECOLI.
  3. Таким образом, можно прийти к следующим выводам. Если наша задача найти как можно больше возможных гомологов (не только ортологов) нашего белка, стоит использовать близкий к слабому, короткий паттерн (содержащий какой-нибудь функиональный участок): тогда из полученной большой выборки можно найти гомологи, и в довольно большом количестве, но зато есть вероятность получить много "лишних" белков. Если же наша задача найти определенные белки (например ближайшие ортологи), то стоит использовать длинные, близкие к сильным паттерны (хорошо, чтобы и этот участок был функционально важным для белка, или критичным в плане структуры).


    ©Володя Рудько