Программа BLASTP

Поиск гипотетических гомологов изучаемого белка в разных БД.

Поиск был произведён при значениях параметров по умолчанию.

Таблица 1. Результаты поиска гипотетических гомологов белка ompT_Ecoli

  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка (в принципе должна соответствовать заданному белку)
Идентификатор БД OMPT_ECOLI 1I78 ref|NP_415097.1|
E-value 0.0 1e-173 0.0
Вес (в битах) 650 604 650
% идентичности 100 98 100
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
нет нет 12; ref|AP_001210.1|
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 6 1 81
2. "Худшая" находка (последняя в выдаче с E-value<=1.0)
Номер находки в списке описаний (Descriptions) 8 10 85
Идентификатор БД ARGB_RHOS4 5ACN ref|ZP_03354278.1|
E-value 0.51 0.83 2e-05
Вес (в битах) 35 30.4 53.9
% идентичности 35 24 41
% сходства 53 38 71
Длина выравнивания 71 136 53
Координаты выравнивания (номера первых и последних а.о.) В порядке: первая Query, первая Sbjct, последняя Query, последняя Sbjct 8, 199, 67, 269 179, 336, 310, 465 27, 29, 79, 80
% гэпов 7 7 1

Мне удалось найти мой белок во всех 3-х базах данных. Различия в выравнивании с самим собой имеются только в PDB. Одно из различий - это мутация, информация о которой имеется в записи банка Swiss-Prot, а другая могла быть вызвана либо мутацией, либо ошибкой в одной из последовательностей.

В банках различное число потенциальных гомологов. В PDB всего 1 (это и есть мой белок), это действительно относительно небольшой банк, так как технологии определения третичной структуры появились не так давно и этот процесс (на данный момент) нельзя автоматизировать. В Swiss-Prot побольше гомологов, так как она вбирает многочисленные исследования белков, но не содержит непроверенных данных. А "nr", как я понял по его описанию, вбирает в себя информацию различных БД без повторений (безызбыточный = non-redundant, или nr), в ней имеются записи о многих штаммах и подштаммах различных организмов, поэтому в ней так много гомологов.

"Худшие" гомологи разные. А лучший из "худших" находится в БД Swiss-Prot. Банки Swiss-Prot и PDB изначально различны и несвязаны между собой. Ну а несовпадение с БД nr, на мой взгляд, вызвано различными формулами расчёта E-value.


Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам

Я выполнил поиск по Swiss-Prot. В таксонах Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae не было обнаружено ни одного гомолога моего белка, учитывая критерий: E-value<0.001.

Тогда я выполнил поиск без указания таксона и критерия E-value. В результате получил первые 6 белков (включая мой) со значениями E-value <= 1e-77 и Score >= 289, что указывает на высокую родственность организмов, имеющих эти белки. Я решил это проверить. Действительно, эти белки принадлежат организмам семейства Enterobacteriaceae. Мой белок оказался очень специфичен для этого таксона.
Это также ясно из его функций, которые были рассмотрены в других работах. Мой белок защищает организм E.coli, разрезая противомикробный белок протамин, белок-рецептор железосодержащего энтеробактина и др.

У 7-ого белка в поиске значения гораздо хуже: E-value = 0.34 и Score = 35.8. Этот белок принадлежит крысе Rattus norvegicus. Учитывая E-value, Score и функции моего белка, можно предположить, что он не гомологичен белку Rattus norvegicus и их сходство случайно.

Поиск по "nr"

Затем я выполнил поиск по "nr" с критерием E-value<0.001. В немаленьком списке результатов очень часто встречались одни и те же роды организмов. Я постарался просмотреть записи белков различных родов. Наиболее далёкий гомолог среди них я обнаружил у организма Agrobacterium tumefaciens str. C58. Его таксономия расходится с таксономией E.coli на уровне класса:
E.coli: Bacteria; Proteobacteria; Gammaproteobacteria.
A.tumefaciens: Bacteria; Proteobacteria; Alphaproteobacteria.

Результаты выравнивания.

Идентификатор БД ref|NP_354157.2|
E-value 9e-07
Вес (в битах) 58.2
% идентичности 33
% сходства 49
Длина выравнивания 130
Координаты выравнивания (номера первых и последних а.о.) В порядке: первая Query, первая Sbjct, последняя Query, последняя Sbjct 32, 29, 155, 152
% гэпов 9

Поиск белка по его фрагменту

С помощью программы BLASTP был произведен поиск по фрагменту последовательности. Найдено несколько белков для стандартных значений параметров. Лучшая находка имеет ID OMPP_ECOLI и AC P34210 в банке Swiss-Prot.

Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности

  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки P34210 P34210
E-value 0.012 0.0
Вес (в битах) 37.4 648
Найдены ли другие белки с теми же значениями E-value и веса в битах?
нет нет

Различия в поиске, указанные в таблице, вполне очевидны. Вес выравнивания складывается из весов замен а.о. Так как выравнивание фрагмента короче выравнивания всей последовательности, то и вес разный. А значение E-value зависит от веса выравнивания и длины, которые в данном случае различны.

Выравнивание с моим белком (Query - OMPP_ECOLI; Sbjct - OMPT_ECOLI):

Query  1    MQTKLLAIMLAAPVVFSSQEASASDFFGPEKISTEINLGTLSGKTKERVYEPEEGGRKVS  60
            M+ KLL I+L  P+  SS  ++ +  F P+ I+ +I+LGTLSGKTKERVY  EEGGRKVS
Sbjct  1    MRAKLLGIVLTTPIAISSFASTETLSFTPDNINADISLGTLSGKTKERVYLAEEGGRKVS  60

Query  61   QLDWKYSNAAILKGAVNWELNPWLSVGAAGWTTLNSRGGNMVDQDWMDSGTPGTWTDESR  120
            QLDWK++NAAI+KGA+NW+L P +S+GAAGWTTL SRGGNMVDQDWMDS  PGTWTDESR
Sbjct  61   QLDWKFNNAAIIKGAINWDLMPQISIGAAGWTTLGSRGGNMVDQDWMDSSNPGTWTDESR  120

Query  121  HPDTRLNYANEFDLNVKGWFLKESDYRLAIMAGYQESRYSFNATGGTYIYSENGGFRNET  180
            HPDT+LNYANEFDLN+KGW L E +YRL +MAGYQESRYSF A GG+YIYS   GFR++ 
Sbjct  121  HPDTQLNYANEFDLNIKGWLLNEPNYRLGLMAGYQESRYSFTARGGSYIYSSEEGFRDDI  180

Query  181  GALPDKIKVIGYKQHFKIPYVGLTGNYRYDNFEFGGAFKYSGWVRGSDNDEHYV--RQTT  238
            G+ P+  + IGYKQ FK+PY+GLTG+YRY++FE GG FKYSGWV  SDNDEHY   ++ T
Sbjct  181  GSFPNGERAIGYKQRFKMPYIGLTGSYRYEDFELGGTFKYSGWVESSDNDEHYDPGKRIT  240

Query  239  FRSKVINQNYYSVAVNAGYYITPEAKVYIEGVWSRLTNKKGDTSLYDRSDNTSEHNNNGA  298
            +RSKV +QNYYSVAVNAGYY+TP AKVY+EG W+R+TNKKG+TSLYD ++NTS+++ NGA
Sbjct  241  YRSKVKDQNYYSVAVNAGYYVTPNAKVYVEGAWNRVTNKKGNTSLYDHNNNTSDYSKNGA  300

Query  299  GIENYNFITTAGLKYTF  315
            GIENYNFITTAGLKYTF
Sbjct  301  GIENYNFITTAGLKYTF  317
Моё выравнивание в работе "Пробные выравнивания" полностью совпало с фрагментами данного. Это а.о. №№ 227-245 для Sbjct и №№ 227-243 для Query. Картинка с моим выравниванием (seq1 соответствует Sbjct; seq2 - Query):

Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями.

Я сделал выравнивания в программах BLASTP, needle и water при значениях параметров, стандартных для BLASTP (штраф за начало гэпа 11, за продолжение - 1)

Таблица 3. Результаты выравниваний OMPT_ECOLI и OMPP_ECOLI тремя различными программами.

  BLASTP needle water
Вес 1215 1248 1248
Длина выравнивания 317 317 317
Процент совпадения 70 70 70
Процент сходства 84 84.5 84.5

Выравнивание программой BLASTP вставлено в отчёт выше.

Выравнивание программами needle(первое) и water(второе):

OMPT_ECOLI         1 MRAKLLGIVLTTPIAISSFASTETLSFTPDNINADISLGTLSGKTKERVY     50
                     |:.|||.|:|..|:..||..::.:..|.|:.|:.:|:|||||||||||||
OMPP_ECOLI         1 MQTKLLAIMLAAPVVFSSQEASASDFFGPEKISTEINLGTLSGKTKERVY     50

OMPT_ECOLI        51 LAEEGGRKVSQLDWKFNNAAIIKGAINWDLMPQISIGAAGWTTLGSRGGN    100
                     ..|||||||||||||::||||:|||:||:|.|.:|:||||||||.|||||
OMPP_ECOLI        51 EPEEGGRKVSQLDWKYSNAAILKGAVNWELNPWLSVGAAGWTTLNSRGGN    100

OMPT_ECOLI       101 MVDQDWMDSSNPGTWTDESRHPDTQLNYANEFDLNIKGWLLNEPNYRLGL    150
                     |||||||||..|||||||||||||:||||||||||:|||.|.|.:|||.:
OMPP_ECOLI       101 MVDQDWMDSGTPGTWTDESRHPDTRLNYANEFDLNVKGWFLKESDYRLAI    150

OMPT_ECOLI       151 MAGYQESRYSFTARGGSYIYSSEEGFRDDIGSFPNGERAIGYKQRFKMPY    200
                     |||||||||||.|.||:||||...|||::.|:.|:..:.|||||.||:||
OMPP_ECOLI       151 MAGYQESRYSFNATGGTYIYSENGGFRNETGALPDKIKVIGYKQHFKIPY    200

OMPT_ECOLI       201 IGLTGSYRYEDFELGGTFKYSGWVESSDNDEHYDPGKRITYRSKVKDQNY    250
                     :||||:|||::||.||.|||||||..|||||||  .::.|:||||.:|||
OMPP_ECOLI       201 VGLTGNYRYDNFEFGGAFKYSGWVRGSDNDEHY--VRQTTFRSKVINQNY    248

OMPT_ECOLI       251 YSVAVNAGYYVTPNAKVYVEGAWNRVTNKKGNTSLYDHNNNTSDYSKNGA    300
                     ||||||||||:||.||||:||.|:|:|||||:|||||.::|||:::.|||
OMPP_ECOLI       249 YSVAVNAGYYITPEAKVYIEGVWSRLTNKKGDTSLYDRSDNTSEHNNNGA    298

OMPT_ECOLI       301 GIENYNFITTAGLKYTF    317
                     |||||||||||||||||
OMPP_ECOLI       299 GIENYNFITTAGLKYTF    315 

OMPT_ECOLI         1 MRAKLLGIVLTTPIAISSFASTETLSFTPDNINADISLGTLSGKTKERVY     50
                     |:.|||.|:|..|:..||..::.:..|.|:.|:.:|:|||||||||||||
OMPP_ECOLI         1 MQTKLLAIMLAAPVVFSSQEASASDFFGPEKISTEINLGTLSGKTKERVY     50

OMPT_ECOLI        51 LAEEGGRKVSQLDWKFNNAAIIKGAINWDLMPQISIGAAGWTTLGSRGGN    100
                     ..|||||||||||||::||||:|||:||:|.|.:|:||||||||.|||||
OMPP_ECOLI        51 EPEEGGRKVSQLDWKYSNAAILKGAVNWELNPWLSVGAAGWTTLNSRGGN    100

OMPT_ECOLI       101 MVDQDWMDSSNPGTWTDESRHPDTQLNYANEFDLNIKGWLLNEPNYRLGL    150
                     |||||||||..|||||||||||||:||||||||||:|||.|.|.:|||.:
OMPP_ECOLI       101 MVDQDWMDSGTPGTWTDESRHPDTRLNYANEFDLNVKGWFLKESDYRLAI    150

OMPT_ECOLI       151 MAGYQESRYSFTARGGSYIYSSEEGFRDDIGSFPNGERAIGYKQRFKMPY    200
                     |||||||||||.|.||:||||...|||::.|:.|:..:.|||||.||:||
OMPP_ECOLI       151 MAGYQESRYSFNATGGTYIYSENGGFRNETGALPDKIKVIGYKQHFKIPY    200

OMPT_ECOLI       201 IGLTGSYRYEDFELGGTFKYSGWVESSDNDEHYDPGKRITYRSKVKDQNY    250
                     :||||:|||::||.||.|||||||..|||||||  .::.|:||||.:|||
OMPP_ECOLI       201 VGLTGNYRYDNFEFGGAFKYSGWVRGSDNDEHY--VRQTTFRSKVINQNY    248

OMPT_ECOLI       251 YSVAVNAGYYVTPNAKVYVEGAWNRVTNKKGNTSLYDHNNNTSDYSKNGA    300
                     ||||||||||:||.||||:||.|:|:|||||:|||||.::|||:::.|||
OMPP_ECOLI       249 YSVAVNAGYYITPEAKVYIEGVWSRLTNKKGDTSLYDRSDNTSEHNNNGA    298

OMPT_ECOLI       301 GIENYNFITTAGLKYTF    317
                     |||||||||||||||||
OMPP_ECOLI       299 GIENYNFITTAGLKYTF    315 

Судя по таблице и представленным выравниваниям, мы можем заключить, что выравнивания программ needle и water одни и те же. Я нашёл лишь один отличный участок в выравнивании программы BLASTP. Во всех выравниваниях для OMPT_ECOLI это а.о. №№ 234 - 236, для OMPP_ECOLI №№ 232-234:

BLASTP: V--        needle:  --V
        DPG                 DPG
По матрице весов замен BLOSUM62 я выяснил, что замены V-D и V-G имеют одинаковый вес. Поэтому данные участки и оба выравнивания имеют одинаковый вес. Таким образом выравнивание BLASTP тоже оптимально. Видимо, белки настолько родственны, что более простого алгоритма выравнивания программы BLASTP оказалось вполне достаточно для создания выравнивания такого качества. Но для меня так и осталось непонятным различие весов (см. таблицу 3).


© Айдарханов Руслан 2008