Паттерны строились на базе этого кусочка выравнивания.
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
* |
  |
  |
  |
  |
  |
  |
  |
  |
D |
A |
P |
B |
_ |
B |
U |
C |
A |
P |
  |
: |
  |
G |
K |
H |
T |
V |
L |
F |
S |
S |
S |
D |
E |
  |
: |
  |
  |
1 |
2 |
D |
A |
P |
B |
_ |
R |
H |
O |
P |
A |
  |
: |
  |
G |
D |
H |
T |
V |
I |
F |
A |
G |
A |
S |
E |
  |
: |
  |
  |
1 |
2 |
D |
A |
P |
B |
_ |
E |
C |
O |
L |
I |
  |
: |
  |
G |
E |
H |
T |
A |
M |
F |
A |
D |
I |
G |
E |
  |
: |
  |
  |
1 |
2 |
D |
A |
P |
B |
_ |
G |
E |
O |
S |
L |
  |
: |
  |
G |
E |
H |
T |
V |
Y |
F |
I |
G |
M |
G |
E |
  |
: |
  |
  |
1 |
2 |
D |
A |
P |
B |
_ |
D |
E |
S |
P |
S |
  |
: |
  |
G |
E |
H |
T |
I |
Y |
F |
A |
G |
A |
G |
E |
  |
: |
  |
  |
1 |
2 |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
  |
G |
  |
H |
T |
  |
  |
F |
  |
  |
  |
  |
E |
  |
  |
  |
  |
  |
  |
Характеристика паттерна |
Паттерн |
В скольких последовательностях банка Swiss-Prot
найден мотив, удовлетворяющий паттерну? |
Все ли последовательности из Вашего выравнивания найдены? |
Фрагмент последовательности |
GEHTAMFADIGE |
13 |
да |
Сильный |
G-[KDE]-HT-[VAI]-[LIMY]-F-[SAI]-[SGD]-[SAIM]-[DSG]-E |
35 |
да |
Слабый |
G-x-HT-x(2)-F-x(4)-E |
91 |
да |
Обратим внимание на то, что для белка DAPB_ECOLI существует относительно большое количество гомологов с идентичностью 95-100%. Этим объясняет то, что не просто при сильном паттерне (не говоря уже про слабый), но даже при таком, которому соответствует полностью безвариантный внутри себя участок последовательности, соответствует целых 13 белков и соответственно 35 и 91 для сильного и слабого.
Откуда что получилось:
С помощью программы blastp нашел в банке Swiss-Prot предпологаемые гомологи белка DAPB_ECOLI.
Из них выбрал 4 наиболее вероятных ортологов
Получил файл с последовательностями белка DAPB_ECOLI и всех отобранных "ортологов" в формате FASTA, названия последовательностей представляют собой ID записей Swiss-Prot
С помощью программы muscle построил множественное выравнивание белка и его "ортологов". Импортировал его в GeneDoc. Выбрал консервативный фрагмент выравнивания длиной 12 а.о. для дальнейшего исследования. Экспортировал фрагмент в HTML-формат.
Создал паттерны по множественному выравниванию и провел поиск по паттернам в банке данных Swiss-Prot
Рассмотрел выбранный фрагмент множественного выравнивания. Создал паттерны и записал их в таблицу, см. выше.
Первый паттерн в точности является фрагментом последовательности DAPB_ECOLI.
Второй ("сильный") паттерн построен так, чтобы он распознавал все белки моей выборки
Третий ("слабый") паттерн создан на основе второго, требования к последовательности более мягкие.
Основные элементы синтаксиса паттернов:
- [ALK] — в данной позиции разрешены только остатки в квадратных скобках;
- Х(3) — интервал в 3 любых остатка;
- {WY} — запрет на остатки в фигурных скобках,
|