Создание паттернов для поиска и распознавания аминокислотных последовательностей




Паттерны строились на базе этого кусочка выравнивания.


                                                             
                                            *                
D A P B _ B U C A P   :   G K H T V L F S S S D E   :     1 2
D A P B _ R H O P A   :   G D H T V I F A G A S E   :     1 2
D A P B _ E C O L I   :   G E H T A M F A D I G E   :     1 2
D A P B _ G E O S L   :   G E H T V Y F I G M G E   :     1 2
D A P B _ D E S P S   :   G E H T I Y F A G A G E   :     1 2
                          G   H T     F         E            



Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности GEHTAMFADIGE 13 да
Сильный G-[KDE]-HT-[VAI]-[LIMY]-F-[SAI]-[SGD]-[SAIM]-[DSG]-E 35 да
Слабый G-x-HT-x(2)-F-x(4)-E 91 да


Обратим внимание на то, что для белка DAPB_ECOLI существует относительно большое количество гомологов с идентичностью 95-100%. Этим объясняет то, что не просто при сильном паттерне (не говоря уже про слабый), но даже при таком, которому соответствует полностью безвариантный внутри себя участок последовательности, соответствует целых 13 белков и соответственно 35 и 91 для сильного и слабого.

Откуда что получилось:

  • С помощью программы blastp нашел в банке Swiss-Prot предпологаемые гомологи белка DAPB_ECOLI.
  • Из них выбрал 4 наиболее вероятных ортологов
  • Получил файл с последовательностями белка DAPB_ECOLI и всех отобранных "ортологов" в формате FASTA, названия последовательностей представляют собой ID записей Swiss-Prot
  • С помощью программы muscle построил множественное выравнивание белка и его "ортологов".
  • Импортировал его в GeneDoc.
  • Выбрал консервативный фрагмент выравнивания длиной 12 а.о. для дальнейшего исследования.
  • Экспортировал фрагмент в HTML-формат.
  • Создал паттерны по множественному выравниванию и провел поиск по паттернам в банке данных Swiss-Prot
  • Рассмотрел выбранный фрагмент множественного выравнивания.
  • Создал паттерны и записал их в таблицу, см. выше.
  • Первый паттерн в точности является фрагментом последовательности DAPB_ECOLI.
  • Второй ("сильный") паттерн построен так, чтобы он распознавал все белки моей выборки
  • Третий ("слабый") паттерн создан на основе второго, требования к последовательности более мягкие.


  • Основные элементы синтаксиса паттернов:
    • [ALK] — в данной позиции разрешены только остатки в квадратных скобках;
    • Х(3) — интервал в 3 любых остатка;
    • {WY} — запрет на остатки в фигурных скобках,