Программа BLASTP

1

Таблица 1. Результаты поиска гипотетических гомологов белка OTC1_ECOLI

  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка (в принципе должна соответствовать заданному белку)
Идентификатор БД P04391 1AKM NP_418675
E-value 0 0 0
Вес (в битах) 697 695 697
% идентичности 100% 100% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
Не найдены, есть только белки также с нулевым E-value, но меньшим весом Не найдены, есть только белки также с нулевым E-value, но меньшим весом Не найдены, есть только белки также с нулевым E-value, но меньшим весом
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value < 1E-10) 502 36 1887
2. "Худшая" находка (последняя в выдаче с E-value < 1)
Номер находки в списке описаний (Descriptions) 746 39 2828
Идентификатор БД Q03WW4 3D6N XP_313840
E-value 0.53 4e-09 0.88
Вес (в битах) 35 58.2 38.5
% идентичности 27% 26% 24%
% сходства 46% 45% 38%
Длина выравнивания 144 241 171
Координаты выравнивания (номера первых и последних а.о.) 7-145 для заданного белка, 2-140 для найденного 13-243 для заданного белка, 8-220 для найденного 128-283 для заданного белка, 72-235 для найденного
% гэпов 6% 15% 12%
Лучшая находка во всех трех БД соответствовала искомому белку. Во всех трех случаях E-value оказалось одинаковым и равным нулю. Тем не менее вес выравнивания совпал только в SwissProt и nd, в PDB он оказался чуть меньше, так как в файле PDB, соответствующем нашему белку, не быд учтен инициирующий аминокислотный остаток метионин, в отличие от последовательностей в SwissProt и nd. Поэтому выравнивание оказалось короче на единицу.
Количество хороших гомологов в разных БД сильно отличается. Самое большое количество результатов - в банке nd, поскольку его объем наибольший: он включает в себя и SwissProt, и PDB, и несколько других БД, поэтому поиск проводился в самых широких масштабах. Меньше всего гомологов обнаружилось в PDB, этот банк содержит информацию о третичных структурах белков, и его объем сравнительно небольшой, т.к. обнаружение третичной структуры - довольно сложный процесс, кроме того, не все белки ее имеют.
"Худшие" находки во всех банках также различны, что обусловлено, опять-таки, размерами БД , то есть возможностью сравнения нашего белка с как можно большим числом последовательностей (например, для "худшей" находки в PDB значение E-value на 9 порядков меньше, чем в двух других БД). При подсчете E-value объем банка учитывается.
Выберем лучшую находку из "худших". Если считать лучшей находку с минимальным E-value, то, конечно, это будет находка в банке PDB. Для этой находки также максимален вес выравнивания и его длина. А вот процент идентичности больше в SwissProt, но всего лишь на 1%. Тем не менее в выравнивании в PDB наибольший процент гэпов.


2

Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
При поиске гомологов исследуемого белка в организме Homo sapiens по БД SwissProt было обнаружено два белка, из них меньшее значение E-value имеет белок, описанный в следующей таблице:

Таблица 2. Свойства выравнивания белка OTC1_ECOLI с его гипотетическим
гомологом из организма Homo sapiens

Идентификатор БД P00480
E-value 1e-50
Вес (в битах) 197
% идентичности 37%
% сходства 55%
Длина выравнивания 328
Координаты выравнивания (номера первых и последних а.о.) В заданном белке 7-333, в найденном 40-343
% гэпов 7%

Отметим, что найденный белок имеет довольно-таки неплохое значение E-value, учитывая, насколько далеки друг от друга организмы, в которых синтезируются сравниваемые белки.
При дальнейшем поиске в следующих таксонах, которые уже ближе к E.coli, количество гомологов растет, значения E-value у лучших находок падают (что естественно).


3

Поиск белка по его фрагменту
Найдем белок с помощью BLASTP по фрагменту его последовательности:
>seq2
ENFGKLEGITLVYCGDGR

Лучшими результатами являются две последовательности, которые имеют одинаковые E-value и вес выравнивания. Это последовательности белков, принадлежащих бактериям одного вида, но разных серотипов: Streptococcus agalactiae serogroup V и Streptococcus agalactiae. Они отличаются всего лишь одной аминокислотой (203-я позиция, глутаминовая кислота либо глицин соответственно, это было обнаружено после импортирования обеих последовательностей в fasta-формате в GeneDoc и их сопоставления). Рассмотрим первую последовательность. Ее идентификаторы:
SwissProt ID: OTCC2_STRA5, AC: P65606.
Последовательность в fasta-формате можно посмотреть здесь: P65606.fasta
По полной последовательности также проведем поиск. Результаты - в таблице ниже.

Таблица 3. Результаты поиска белка в Swiss-Prot по фрагменту последовательности

  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки P65606 P65606
E-value 6e-10 0
Вес (в битах) 60.9 697
Найдены ли другие белки с теми же значениями E-value и веса в битах?
да, найден один белок (см. выше), его AC: Q8RP83 не найдены

Поскольку в первом случае мы искали фрагмент последовательности, естественно, что вес и длина выравниваний получались небольшими по сравнению с полной последовательностью. А следовательно, изменилось и значение E-value, которое зависит от этих параметров.
Рассмотрим выравнивание найденной последовательности с моим белком OTC1_ECOLI:
Query - OTCC2_STRA5, Sbjct - OTC1_ECOLI.
Query  5    FQGRSFLAEKDFSREEFEYLIDFSAHLKDLKKRGVPHHYLEGKNIALLFEKTSTRTRAAF  64
            F  + FL   DF+  E   L+  +A LK  KK G     L GKNIAL+FEK STRTR +F
Sbjct  4    FYHKHFLKLLDFTPAELNSLLQLAAKLKADKKSGKEEAKLTGKNIALIFEKDSTRTRCSF  63

Query  65   TTAAIDLGAHPEYLGANDIQLGKKESTEDTAKVLGRMFDGIEFRGFSQRMVEELAEFSGV  124
              AA D GA   YLG +  Q+G KES +DTA+VLGRM+DGI++RG+ Q +VE LAE++ V
Sbjct  64   EVAAYDQGARVTYLGPSGSQIGHKESIKDTARVLGRMYDGIQYRGYGQEIVETLAEYASV  123

Query  125  PVWNGLTDEWHPTQMLADYLTIKENF-GK-LEGITLVYCGDGRNNVANSLLVAGTLMGVN  182
            PVWNGLT+E+HPTQ+LAD LT++E+  GK    +TLVY GD RNN+ NS+L A  L G++
Sbjct  124  PVWNGLTNEFHPTQLLADLLTMQEHLPGKAFNEMTLVYAGDARNNMGNSMLEAAALTGLD  183

Query  183  VHIFSPKELFPAEEIVKLAEEYAKESGAHVLVTDNVDEAVKGADVFYTDVWVSMGE-EDK  241
            + + +P+  +P   +V      A+++G ++ +T++V + V+GAD  YTDVWVSMGE ++K
Sbjct  184  LRLVAPQACWPEAALVTECRALAQQNGGNITLTEDVAKGVEGADFIYTDVWVSMGEAKEK  243

Query  242  FKERVELLQPYQVNMELIKKANNDNLIFLHCLPAFHDTNTVYGKDVAEKFGVK-EMEVTD  300
            + ER+ LL+ YQVN ++++   N  + FLHCLPAFHD  T  GK +AE+FG+   MEVTD
Sbjct  244  WAERIALLREYQVNSKMMQLTGNPEVKFLHCLPAFHDDQTTLGKKMAEEFGLHGGMEVTD  303

Query  301  EVFRSKYARHFDQAENRMHTIKAVMAATL  329
            EVF S  +  FDQAENRMHTIKAVM ATL
Sbjct  304  EVFESAASIVFDQAENRMHTIKAVMVATL  332

Мое пробное выравнивание фрагментов этих последовательностей соответствует а.о №147-164 для OTCC2_STRA5 и №148-165 для OTC1_ECOLI. Импортируем соответствующий участок выравнивания, полученного в BLASTP, в GeneDoc и сравним два выравнивания:

Мое пробное выравнивание слегка отличается от выравнивания из BLASTP. Различие вызвано тем, что я выравнивала не полные последовательности, а их фрагменты, где не штрафовались концевые гэпы, поэтому начальный участок OTCC2_STRA5 сдвинут вправо и потеряно совпадение глутаминовых кислот (прибавка за это совпадение не покрывала штрафа за образующийся при этом гэп). Кроме того, при расчете веса моего пробного выравнивания не учитывались замены аминокислотных остатков, и поэтому позиции участков LEGI в середине фрагментов также не совпадают. Но в целом никаких кардинальных различий между выравниваниями нет.


4

Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями
Для получения оптимальных глобального и локального выравниваний воспользуемся программами пакета EMBOSS needle и water соответственно. Чтобы штрафы за гэпы были такими же, как и в BLASTP, то есть
штраф за открытие гэпа 11.0,
штраф за продолжение гэпа 1.0,
мы должны учесть, что в BLASTP штрафы считаются по формуле
S = G + nE, где G - штраф за открытие гэпа, E - штраф за его продолжение, в то время как в программах EMBOSS суммарный штраф считается как S = G + (n-1)E. Поэтому зададим в needle и water штраф за открытие гэпа, равный G - E = 11 - 1 = 10. Штраф за продолжение такой же, как и в BLASTP.

Полученные выравнивания сохранены в файлах: optimal.needle и optimal.water. Приведем эти выравнивания здесь в текстовом виде:

Оптимальное глобальное выравнивание, построенное программой needle:
OTCC2_STRA5        1 MTQVFQGRSFLAEKDFSREEFEYLIDFSAHLKDLKKRGVPHHYLEGKNIA     50
                      ...|..:.||...||:..|...|:..:|.||..||.|.....|.|||||
OTC1_ECOLI         1 -MSGFYHKHFLKLLDFTPAELNSLLQLAAKLKADKKSGKEEAKLTGKNIA     49

OTCC2_STRA5       51 LLFEKTSTRTRAAFTTAAIDLGAHPEYLGANDIQLGKKESTEDTAKVLGR    100
                     |:|||.|||||.:|..||.|.||...|||.:..|:|.|||.:|||:||||
OTC1_ECOLI        50 LIFEKDSTRTRCSFEVAAYDQGARVTYLGPSGSQIGHKESIKDTARVLGR     99

OTCC2_STRA5      101 MFDGIEFRGFSQRMVEELAEFSGVPVWNGLTDEWHPTQMLADYLTIKENF    150
                     |:|||::||:.|.:||.|||::.||||||||:|:||||:|||.||::|:.
OTC1_ECOLI       100 MYDGIQYRGYGQEIVETLAEYASVPVWNGLTNEFHPTQLLADLLTMQEHL    149

OTCC2_STRA5      151 -GK-LEGITLVYCGDGRNNVANSLLVAGTLMGVNVHIFSPKELFPAEEIV    198
                      || ...:||||.||.|||:.||:|.|..|.|:::.:.:|:..:|...:|
OTC1_ECOLI       150 PGKAFNEMTLVYAGDARNNMGNSMLEAAALTGLDLRLVAPQACWPEAALV    199

OTCC2_STRA5      199 KLAEEYAKESGAHVLVTDNVDEAVKGADVFYTDVWVSMGE-EDKFKERVE    247
                     ......|:::|.::.:|::|.:.|:|||..|||||||||| ::|:.||:.
OTC1_ECOLI       200 TECRALAQQNGGNITLTEDVAKGVEGADFIYTDVWVSMGEAKEKWAERIA    249

OTCC2_STRA5      248 LLQPYQVNMELIKKANNDNLIFLHCLPAFHDTNTVYGKDVAEKFGVK-EM    296
                     ||:.||||.::::...|..:.||||||||||..|..||.:||:||:. .|
OTC1_ECOLI       250 LLREYQVNSKMMQLTGNPEVKFLHCLPAFHDDQTTLGKKMAEEFGLHGGM    299

OTCC2_STRA5      297 EVTDEVFRSKYARHFDQAENRMHTIKAVMAATLGNLFIPKV    337
                     |||||||.|..:..|||||||||||||||.|||..      
OTC1_ECOLI       300 EVTDEVFESAASIVFDQAENRMHTIKAVMVATLSK------    334

Оптимальное локальное выравнивание, построенное программой water:
OTCC2_STRA5        5 FQGRSFLAEKDFSREEFEYLIDFSAHLKDLKKRGVPHHYLEGKNIALLFE     54
                     |..:.||...||:..|...|:..:|.||..||.|.....|.||||||:||
OTC1_ECOLI         4 FYHKHFLKLLDFTPAELNSLLQLAAKLKADKKSGKEEAKLTGKNIALIFE     53

OTCC2_STRA5       55 KTSTRTRAAFTTAAIDLGAHPEYLGANDIQLGKKESTEDTAKVLGRMFDG    104
                     |.|||||.:|..||.|.||...|||.:..|:|.|||.:|||:|||||:||
OTC1_ECOLI        54 KDSTRTRCSFEVAAYDQGARVTYLGPSGSQIGHKESIKDTARVLGRMYDG    103

OTCC2_STRA5      105 IEFRGFSQRMVEELAEFSGVPVWNGLTDEWHPTQMLADYLTIKENF-GK-    152
                     |::||:.|.:||.|||::.||||||||:|:||||:|||.||::|:. || 
OTC1_ECOLI       104 IQYRGYGQEIVETLAEYASVPVWNGLTNEFHPTQLLADLLTMQEHLPGKA    153

OTCC2_STRA5      153 LEGITLVYCGDGRNNVANSLLVAGTLMGVNVHIFSPKELFPAEEIVKLAE    202
                     ...:||||.||.|||:.||:|.|..|.|:::.:.:|:..:|...:|....
OTC1_ECOLI       154 FNEMTLVYAGDARNNMGNSMLEAAALTGLDLRLVAPQACWPEAALVTECR    203

OTCC2_STRA5      203 EYAKESGAHVLVTDNVDEAVKGADVFYTDVWVSMGE-EDKFKERVELLQP    251
                     ..|:::|.::.:|::|.:.|:|||..|||||||||| ::|:.||:.||:.
OTC1_ECOLI       204 ALAQQNGGNITLTEDVAKGVEGADFIYTDVWVSMGEAKEKWAERIALLRE    253

OTCC2_STRA5      252 YQVNMELIKKANNDNLIFLHCLPAFHDTNTVYGKDVAEKFGVK-EMEVTD    300
                     ||||.::::...|..:.||||||||||..|..||.:||:||:. .|||||
OTC1_ECOLI       254 YQVNSKMMQLTGNPEVKFLHCLPAFHDDQTTLGKKMAEEFGLHGGMEVTD    303

OTCC2_STRA5      301 EVFRSKYARHFDQAENRMHTIKAVMAATL    329
                     |||.|..:..|||||||||||||||.|||
OTC1_ECOLI       304 EVFESAASIVFDQAENRMHTIKAVMVATL    332

Выравнивание, построенное программой BLAST, приведено выше (задание 3).
Сравним три выравнивания, заполнив таблицу:

Таблица 4. Сравнение выравниваний

  Выравнивание, построенное в needle Выравнивание, построенное в water Выравнивание, построенное в BLASTP
Вес выравнивания 842 846 866
Длина выравнивания 341 329 329
Гэпы 11/341 4/329 4/329

Глобальное и локальное выравнивания различаются между собой только тем, что в локальном обрезаны концевые участки последовательностей, не содержащие совпадений и положительных замен. В остальном выравнивания, полученные программами EMBOSS, абсолютно одинаковы. Выравнивание BLAST является локальным и полностью совпадает с выравниванием, полученным в программе water. Очевидно, что вес выравнивания needle меньше water потому, что там учитывались отрицательные замены аминокислотных остатков на концах последовательностей. Но тем не менее довольно странно то, что при абсолютно одинаковых параметрах (длина, количество гэпов, сопоставление а.о.) и при учтенной разнице в подсчетах веса локальных выравниваний из water и BLAST все-таки различаются, причем на такое большое число единиц.

к проектам

на главную