Учебный сайт
Главная Семестры Проекты Обо мне

При помощи программы PSI-Blast (программа по построению позиционно-специфической таблицы по множественному выравниванию результатов поиска Blastp и по по поиску гомологичных последовательностей для одной данной) из пакета BLAST был проведен итеративный поиск для 4 последовательностей, одна из которых является последовательностью моего белка BCCP_ECOLI. Результаты занесены в таблицу:

ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5 126 0.004 0.005 239 0.003 0.007
SSPR_ECOLI P0A832 2 449 3*10-10 5.0 449 8*10-31 0,62
NUSB_ECOLI P0A780 4 327 0.003 0.008 388 2*10-12 0.031
BCCP_ECOLI P0ABD8 5 31 0.004 0.013 517 0.001 0.007

В результате поиска "сошлись" итерации для белков SSPR_ECOLI и NUSB_ECOLI. После 5 итераций в списке PSI-Blast по-прежнему оставались лишние белки для последовательностей MINC_ECOLI и BCCP_ECOLI.
Быстрее всего сошлись итерации для SSPR_ECOLI: уже после первого повтора поиска новых белков в списке обнаружено не было, т.е. изначально blastp находил в заданном пороге 0,005 только родственные для SSPR_ECOLI белки. Также резкий разрыв между значениями e-value у лучшей находки ниже порога и худшей выше порога (около 10 порядков в 1 итерации и около 30 во второй итерации, в то время как разрыв между последней и предпоследней находкой над порогом составляет всего 3 и 6 порядков соответственно) говорит о том, что все белки, не вошедшие в список выше порога, очень "далеки" от белка SSPR_ECOLI.

Итерации для белка NUSB_ECOLI сошлись после 4 итерации. В результате в списке остались преимущественно белки NUSB (отвечающие за процесс терминации транскрипции) и RSMB (селективно метилирующие цитозин в 167 позиции в 16S рРНК). Такое сочетание кажется странным, однако в 1 итерации среди исключительно белков NUSB встречаются 2 белка RSMB. Превнося свои последовательности в список, они закрепляют за собой все белки RSMB из последующих итераций. Для этой последовательности разрыв между лучшей находкой под порогом и худшей над порогом меньше, чем в первом случае. это можно объяснить наличием белков RSMB в списке, которые ухудшают избирательную способность PSI-Blast.

В "несошедшихся" итерациях последовательностей BCCP_ECOLI и MINC_ECOLI описанный выше разрыв между находками очень мал и составляет 6 и 4 тысячных соответственно. Одно объясняется тем, что не все родственные последовательности белков могли войти в список, в котором в то же время могут содержаться лишние последовательности.

e-value исходных последовательностей белков в списках находок в разных итерациях:
  • MINC_ECOLI: 4*10-134 --> 2*10-92 --> 2*10-82 --> 4*10-79 --> 2*10-77
  • SSPR_ECOLI: 4*10-91 --> 2*10-74
  • NUSB_ECOLI: 5*10-76 --> 10-53 --> 10-49 --> 7*10-48
  • BCCP_ECOLI: 10-84 --> 3*10-46 --> 4*10-34 --> 2*10-29 --> 3*10-26
Таким образом, e-value исходных последовательностей возрастают с каждой новой итерацией. При этом возможно смещение этой последовательности с первого места в списке: это не означает, что последовательость не является наиболее близкой к себе самой, а является следствием создания таблицы по множественному выравниванию: появление все новых последовательностей в выравнивании может изменять близость последовательностей из списка ко множественному выравниванию; такое изменение показателей e-value уже не соответствует истинному результату поиска гомологов в blastp.


Для того, чтобы получить "сходимость" для последовательностей MINC_ECOLI и BBCCP_ECOLI, я понизила порог с 0,005 до 0,001. После этого итерации для MINC_ECOLI "сошлись" на 3 итерации. Однако не сошлись итерации BCCP_ECOLI. Повторное понижение порога до 0,0005 привело к "сходимости" на 5 итерации. Это значение порога максимально, так как при пороге 0,0006 итерации еще не сходятся.

© Яшина 2009