Поиск гипотетических гомологов изучаемого белка в разных БД.
Поиск был произведён при значениях параметров по умолчанию.Таблица 1. Результаты поиска гипотетических гомологов белка ompT_Ecoli
Поиск по БД Swiss-Prot | Поиск по БД PDB | Поиск по БД "nr" | |
1. Лучшая находка (в принципе должна соответствовать заданному белку) | |||
Идентификатор БД | OMPT_ECOLI | 1I78 | ref|NP_415097.1| |
E-value | 0.0 | 1e-173 | 0.0 |
Вес (в битах) | 650 | 604 | 650 |
% идентичности | 100 | 98 | 100 |
Найдены ли другие белки с теми же значениями E-value и веса в битах? Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID) |
нет | нет | 12; ref|AP_001210.1| |
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) | 6 | 1 | 81 |
2. "Худшая" находка (последняя в выдаче с E-value<=1.0) | |||
Номер находки в списке описаний (Descriptions) | 8 | 10 | 85 |
Идентификатор БД | ARGB_RHOS4 | 5ACN | ref|ZP_03354278.1| |
E-value | 0.51 | 0.83 | 2e-05 |
Вес (в битах) | 35 | 30.4 | 53.9 |
% идентичности | 35 | 24 | 41 |
% сходства | 53 | 38 | 71 |
Длина выравнивания | 71 | 136 | 53 |
Координаты выравнивания (номера первых и последних а.о.) В порядке: первая Query, первая Sbjct, последняя Query, последняя Sbjct | 8, 199, 67, 269 | 179, 336, 310, 465 | 27, 29, 79, 80 |
% гэпов | 7 | 7 | 1 |
Мне удалось найти мой белок во всех 3-х базах данных. Различия в выравнивании с самим собой имеются только в PDB. Одно из различий - это мутация, информация о которой имеется в записи банка Swiss-Prot, а другая могла быть вызвана либо мутацией, либо ошибкой в одной из последовательностей.
В банках различное число потенциальных гомологов. В PDB всего 1 (это и есть мой белок), это действительно относительно небольшой банк, так как технологии определения третичной структуры появились не так давно и этот процесс (на данный момент) нельзя автоматизировать. В Swiss-Prot побольше гомологов, так как она вбирает многочисленные исследования белков, но не содержит непроверенных данных. А "nr", как я понял по его описанию, вбирает в себя информацию различных БД без повторений (безызбыточный = non-redundant, или nr), в ней имеются записи о многих штаммах и подштаммах различных организмов, поэтому в ней так много гомологов.
"Худшие" гомологи разные. А лучший из "худших" находится в БД Swiss-Prot. Банки Swiss-Prot и PDB изначально различны и несвязаны между собой. Ну а несовпадение с БД nr, на мой взгляд, вызвано различными формулами расчёта E-value.
Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
Я выполнил поиск по Swiss-Prot. В таксонах Homo sapiens, Archaea, Actinobacteria, Alteromonadales, Vibrionaceae не было обнаружено ни одного гомолога моего белка, учитывая критерий: E-value<0.001.
Тогда я выполнил поиск без указания таксона и критерия E-value. В результате получил первые 6 белков (включая мой)
со значениями E-value <= 1e-77 и Score >= 289, что указывает на высокую родственность организмов,
имеющих эти белки. Я решил это проверить. Действительно, эти белки принадлежат организмам
семейства Enterobacteriaceae. Мой белок оказался очень специфичен для этого таксона.
Это также ясно из его функций, которые были рассмотрены в других работах. Мой белок защищает
организм E.coli, разрезая противомикробный белок протамин, белок-рецептор железосодержащего энтеробактина
и др.
У 7-ого белка в поиске значения гораздо хуже: E-value = 0.34 и Score = 35.8. Этот белок принадлежит крысе Rattus norvegicus. Учитывая E-value, Score и функции моего белка, можно предположить, что он не гомологичен белку Rattus norvegicus и их сходство случайно.
Поиск по "nr"
Затем я выполнил поиск по "nr" с критерием E-value<0.001. В немаленьком списке результатов
очень часто встречались одни и те же роды организмов. Я постарался просмотреть записи белков
различных родов. Наиболее далёкий гомолог среди них я обнаружил у организма Agrobacterium tumefaciens str. C58.
Его таксономия расходится с таксономией E.coli на уровне класса:
E.coli: Bacteria; Proteobacteria; Gammaproteobacteria.
A.tumefaciens: Bacteria; Proteobacteria; Alphaproteobacteria.
Результаты выравнивания.
Идентификатор БД | ref|NP_354157.2| |
E-value | 9e-07 |
Вес (в битах) | 58.2 |
% идентичности | 33 |
% сходства | 49 |
Длина выравнивания | 130 |
Координаты выравнивания (номера первых и последних а.о.) В порядке: первая Query, первая Sbjct, последняя Query, последняя Sbjct | 32, 29, 155, 152 |
% гэпов | 9 |
Поиск белка по его фрагменту
С помощью программы BLASTP был произведен поиск по фрагменту последовательности. Найдено несколько белков для стандартных значений параметров. Лучшая находка имеет ID OMPP_ECOLI и AC P34210 в банке Swiss-Prot.Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности
Поиск по фрагменту | Поиск по полной последовательности |
|
АС лучшей находки | P34210 | P34210 |
E-value | 0.012 | 0.0 |
Вес (в битах) | 37.4 | 648 |
Найдены ли другие белки с теми же значениями E-value и веса в битах? |
нет | нет |
Различия в поиске, указанные в таблице, вполне очевидны. Вес выравнивания складывается из весов замен а.о. Так как выравнивание фрагмента короче выравнивания всей последовательности, то и вес разный. А значение E-value зависит от веса выравнивания и длины, которые в данном случае различны.
Выравнивание с моим белком (Query - OMPP_ECOLI; Sbjct - OMPT_ECOLI):