PSI-BLAST - принципы работы и сравнение с BLASTP


Работа с прoграммой:

  1. Internet Explorer




Целью этого задания было сравнить результаты работы BLASTP и PSI-BLAST.
В качестве рабочей последовательности была использована аминокислотная последовательность фактора инициации трансляции 1A, транскрибируемого с Y хромосомы человека, взятая из Swiss-Prot.





Сначала проводился поиск гомологов фактора инициации трансляции в банке данных Swiss-Prot с помощью программы BLASTP и подсчет количества найденных гомологов в бактериях, археях и эукариотах.


Результаты поиска:



В таблице указаны количества хитов вообще, не обязательно гомологов фактора инициации транскрибции.





Далее проводился итеративный поиск гомологов фактора инициации трансляции в банке данных Swiss-Prot с помощью программы PSI-BLAST. Для каждой итерации фиксировалось количество найденных гомологов в бактериях, археях и эукариотах, а так же E-value, соответствующее гомологу IF1A_PYRAB из архей, выбранному в качестве "индикаторной" последовательности для анализа принципов работы PSI-BLAST.


Результаты итеративного поиска:



Обозначения:
            "+" означает, что на данной итерации появились новые гомологи,
            "-"означает, что на данной итерации новых гомологов не появилось.
            "*" - в скобках указано число последовательностей, включаемых по E-value в составляемый                  PSSM-профиль.


Уже во второй итерации результаты отличаются от результатов поиска с помощью BLASTP. Новые итерации расширяют круг находимых последовательностей и уже на второй итерации "отсекаются" все случайно найденные последовательности, негомологичные данной.


Наблюдение за изменением параметров выравнивания IF1Y_HUMAN с IF1A_PYRAB при переходе от итерации к итерации позволяет обнаружить основные принципы работы PSI-BLAST.


Значения E-value для IF1A_PYRAB в разных итерациях различны, так как соответствующие парные выравнивания IF1A_PYRAB с входной последовательностью (почти абсолютно одинаковые!) имеют разный вес: в первой итерации низкий - 54, а например, во второй высокий - 145. Трехкратное различие в весе почти одинаковых выравниваний объясняется тем, что в первой итерации для вычисления веса используется матрица замен BLOSUM62, неспецифичная для данного семейства конкретно, а о второй - PSSM-профиль, построенный на основе найденных последовательностей. Согласно этому новому профилю, несовпадение аминокислот в парном выравнивании в позициях, где во множественном выравнивании последовательностей профиля "творится беспорядок" (т.е. в неконсервативных позициях), должны штрафоваться нестрого. Поскольку во втором парном выравнивании IF1Y_HUMAN с IF1A_PYRAB, которая, по-видимому, является типичным представителем семейства, функционально важные для семейства позиции консервативны, а неконсервативны только прочие позиции, то и выходит, что последовательность удовлетворяет профилю с высоким весом.

В последующих итерациях вес соответствующих выравниваний уменьшается и E-value увеличивается, в связи с тем, что профиль становится более точным и строже штрафует несовпадения в парном выравнивании. То есть последовательности белков из архей все хуже удовлетворяют к обновляющемуся профилю, основной вклад в который вносят эукариотические и бактериальные последовательности.





Наконец, проводились дополнительные итерации уже после того, как после четвертой итерации программой был составлен профиль, в который не вошла ни одна новая последовательность. Целью было проверить, будут ли результаты всех последующих итераций совпадать с результатом четвертой, если же нет, то каковы будут тенденции в изменении этих результатов.


Результаты дополнительных итераций:



При дальнейших итерациях список находимых последовательностей не совпадает со списком, полученным в результате четвертой итерации. Очевидно, он изменяется до тех пор, пока не прекращается внесение поправок в профиль при каждой новой итерации и пока профиль не устанавливается в своем окончательном виде. После того, как это произошло, любая новая итерация приводит к одному и тому же списку найденных хитов.





Общий вывод

PSI-BLAST удобен для быстрого и одновременно точного поиска в белковых базах данных последовательностей, гомологичных данной. Во многих случаях он позволяет получать полный список присутствующих в выбранной базе данных гомологов данной последовательности, в котором при этом отстутствуют случайно найденные последовательности, негомологичные данной.





Главная страница