PSI-BLAST

1
Проведем итеративный поиск по банку Swiss-Prot программой PSI-BLAST для белков P18196, P0A832, P0A780 и Р04391. Пороговое значение E-value = 0,005. Результаты поиска занесем в таблицу:
ID белка AC белка Число итераций Для первой итерации Для последней итерации
Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога Число находок выше порога (0,005) Худшее E-value выше порога Лучшее E-value ниже порога
MINC_ECOLI P18196 5 126 0,004 0,007 239 0,003 0,007
SSRP_ECOLI P0A832 2 449 3e-10 5,0 449 8e-31 0,62
NUSB_ECOLI P0A780 4 327 0,003 0,008 388 2e-12 0,031
OTC1_ECOLI P04391 4 777 0,004 0,009 795 0,004 0,009

P18196
Для этой последовательности PSI-BLAST так и не смог подобрать гомологичных (было выполнено 5 итераций, и даже на 5-й список не стабилизировался). При этом на 3-й итерации была надежда, что стабилизация произойдет (т.к. новой оказалась только одна последовательность P39450 или FRMA_PASPI). Но итерации все-таки разошлись. Возможно, это произошло как раз из-за FRMA_PASPI. Этот белок принадлежит к семейству дегидрогеназ, в отличие от других находок - белков, участвующих в клеточном делении и определяющих место формирования клеточной перегородки. В последующих итерациях появилось множество подобных FRMA_PASPI последовательностей из этого же семейства и таким образом в список оказались вовлечены далекие от исходного белки.
Е-value исходного белка P18196 от итерации к итерации увеличивался: 4e-134, 2e-92, 2e-82, 4e-79, 2e-77 соответственно, при этом последовательность все-таки занимала первую позицию в списке. Если же мы проследим путь белка с АС Q55901 (в первой итерации он имел E-value 0,001), то увидим такие значения E-value: 0,001, 1е-23, 1е-31, 4е-31 и 2е-31 соответственно. Как видим, E-value вначале уменьшалось, но после третьей итерации оно росло, хоть и менялось несущественно.
Разрыв между значениями E-value у худшей находки выше порога и лучшей ниже порога в общем меняется мало (0,004 - 0,007 для первой итерации и 0,003 - 0,007 для последней). Тем не менее, если рассматривать по отдельным итерациям, значение разрыва резко выросло на второй же итерации и затем постепенно уменьшалось: от 7е-07 до 0,008 для второй итерации, затем 0,001 - 0,01 для третьей и, наконец, 0,003 - 0,007 для четвертой, то есть разность E-value равна разности в пятой итерации.

P0A832
В этом случае нам повезло и список стабилизировался уже на второй итерации, то есть новых белков не добавилось. Но для найденных белков изменилось значение E-value. Так, у исходной последовательности оно выросло с 4е-91 до 2е-74, а у последовательности Q4A5T2 (SSRP_MYCS5) упало с 3е-10 до 8е-31, при этом белки не изменили своих позиций в списке (хотя исходный белок SSRP_ECOLI и занял вторую позицию во второй итерации, значение его E-value равно значению у первого белка в образовавшемся списке, Q0TEM0, он же SSRP_ECOL5).
Разрыв между худшей находкой выше порога и лучшей находкой ниже порога изменяется значительно: для первой итерации 3e-10 - 5, для второй уже 8e-31 - 0.62. Таким образом, PSI-BLAST четко разделяет гомологи и негомологи. Кстати, в список гомологов входят только белки из одного и того же семейства и выполняющие одну и ту же функцию (SsrA-связывание).

P0A780
Для этой последовательности гипотетические гомологи также подобрались (список стабилизировался), однако только на четвертой итерации. Значение E-value исходного белка менялось так: 5е-76 - 1е-53 - 1е-49 - 7е-48, то есть оно росло, но интервал между двумя соседними значениями уменьшался. Если рассмотреть последовательность A8GMD2 (NUSB_RICAH) с близким к пороговому значением E-value, то мы, как и в первом случае, увидим, что E-value сначала падает, но затем колеблется примерно на одном уровне (в пределах одного порядка): 0,002 - 3е-26 - 5е-26 - 2е-26. Таким образом, мы уже не видим четкой тенденции в изменениях E-value.
Если говорить о разрыве между худшей находкой выше порога и лучшей находкой ниже порога, то здесь он, хоть и не сразу, увеличивается: 0,003 - 0,008, 0,002 - 0,006, 5e-07 - 0,017, 2e-12 - 0,031 для четырех итераций соответственно. Увеличение разрыва, как и в предыдущем случае, говорит об окончательном разделении гомологичных и негомологичных последовательностей.

P18196 (исследуемый белок)
Мой белок OTC1_ECOLI оказался очень легко "бластуемым", что было для меня приятной неожиданностью - всего за 4 итерации список стабилизировался :) При этом число находок изменилось ненамного, а худшее E-value выше порога и лучшее E-value ниже порога вообще не изменились (если сравнивать первую и последнюю итерации). В первой итерации было найдено 777 находок выше порога и еще одна с E-value, равным 0,005. Если проследить путь этой находки (Q9CF79 или PYRB_LACLA), то в последней итерации ее E-value уже 3,00е-81 (уменьшилось на 78 порядков!), сама находка сместилась с 778-й позиции на 759-ю. При этом E-value лучшей находки (собственно самого белка) увеличилось с нуля до 6,00е-137, а белок сместился с первой строки списка на 14-ю. Таким образом, здесь происходит то же самое, что и в случае с P0A832, когда список стабилизировался за 2 итерации.
Разрыв между значениями E-value у худшей находки выше порога и лучшей ниже порога от итерации к итерации вначале резко увеличивается (0,005 - 0,009, затем 1е-33 - 0,008), но потом разница снова уменьшается и держится приблизительно на одном и том же уровне (0,003 - 0,007 для третьей итерации и 0,004 - 0,009 для четвертой). Странно, но хотя, казалось бы, предполагаемые гомологи отфильтрованы и список сформировался, разрыв все же невелик.
Вообще во всех итерациях список состоял из белков со схожими функциями (большинство - орнитинкарбамоилтрансферазы и аспартаткарбамоилтрансферазы, изредка встречались мало изученные белки и др.). Таким образом, мы можем предположить, что подобранные последовательности действительно гомологичны.
Любопытно, что в этом случае, как и с P18196, в третьей итерации имелся только один новый белок, но если у P18196 он послужил причиной расхождения итераций (принадлежал к абсолютно другому семейству), то здесь он выполняет ту же функцию, что и остальные (трансфераза), поэтому не произошло накопления посторонних последовательностей и итерации сошлись.


2

Снова проведем поиск для последовательности P18196, в случае которой итерации не сошлись. На этот раз установим порог 0,001. С таким пороговым E-value сходится уже 3-я итерация. Это происходит потому, что при пороге 0,001 отсекаются негомологичные последовательности из других семейств, а именно P39450 или FRMA_PASPI, о которой уже упоминалось ранее. E-value этой последовательности равно как раз 0,001. Поэтому порог, равный этому значению, будет максимальным, т.к. других таких последовательностей нет.

к проектам

на главную