Учебный сайт
Главная Семестры Проекты Обо мне

1). Поиск гипотетических гомологов изучаемого белка BCCP_ECOLI в разных БД
Результаты поиска гипотетических гомологов белка BCCP_ECOLI
  Поиск по БД Swiss-Prot Поиск по БД PDB Поиск по БД "nr"
1. Лучшая находка (в принципе должна соответствовать заданному белку)
Идентификатор БД BCCP_ECOLI 1A6X NP_289823.1
E-value 9*10-85 2*10-45 10-83
Вес (в битах) 311 177 311
% идентичности 100% 100% 100%
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Если найдены, то укажите общее число и приведите один идентификатор (любой, но желательно Swiss-Prot ID)
Да, найдены, в кластере белков из разных штаммов E.coli. Таких белков 3, один из них - BCCP_SHIFL Нет, не найдены Да, найдены, в кластере белков из штаммов E.coli. Их 93, один из них NP_312154.1
2. Сколько хороших кандидатов в гомологи найдено? (число находок в списке описаний, Descriptions, с E-value<=1E-10) 14, от BCCP_EC057 до BCCP_P0RPU 3, от 1A6X до 1BD0 851, от NP_289823.1 до ZP_02950557.1
2. "Худшая" находка (последняя в выдаче с E-value<=1.0)
Номер находки в списке описаний (Descriptions) 57 16 2323
Идентификатор БД GCSP_KLEP7 2DNC ZP_03391971.1
E-value 0,97 0,72 1.0
Вес (в битах) 32.3 28,9 35.8
% идентичности 37% 35% 36%
% сходства 54% 56% 54%
Длина выравнивания 59 39 57
Координаты выравнивания (номера первых и последних а.о.) В BCCP_ECOLI с 1 по 59, в GCSP_KLEP7 с 817 по 862 В BCCP_ECOLI с 106 по 144, в 2DNC с 32 по 70 В BCCP_ECOLI с 99 по 155, в ZP_03391971.1 с 20 по 76
% гэпов 22% 0% 0%
Таким образом, в SwissProt и nr была найдена полная последовательность белка, а в PDB лишь часть его последовательности. Выравнивание белка с самим собой в SwissProt и nr одинаково за исключением значения E-value. Это значение рассчитывается по формуле E = l*L*K*e-λS, где l - длина последовательности, L - объем банка данных, S - вес последовательности, λ и K - параметры системы подсчета и размера поискового пространства соответственно. В этих двух выравниваниях базы данных различаются, различается и их объем: nr объединяет в себе многие базы, в т.ч. и SwissProt, и PDB, следовательно, ее объем больше и e-value должно получаться больше ( в данном случае в 10 раз больше).
Число потенциальных гомологов белка, найденных в разных базах данных, различно. Наибольшее число гомологов найдено в базе nr: она имеет наибольший объем, следовательно, больше сведений о похожих белках. Меньше всего гомологов найдено в PDB: ее объем не так велик, как у nr или SwissProt.
Все найденные "худшие" последовательности оказались различны. Это опять же можно объяснить размерами баз данных. В PDB последняя в выдаче находка обладает e-value гораздо меньшей (и следовательно самой лучшей), чем в SwissProt. Наибольшее число "худших находок" содержится в базе nr, у нескольких записей e-value равно 1.0 (это записи ZP_03639439.1, YP_002583682.1, YP_002541417.1, ZP_01156700.1, ZP_03391971.1), хотя подробные данные о процентах идентичности, сходства и т.п. для них не приведены (их можно определить, проведя отдельное выравнивание белка P0ABD8 с ограничением по организму, в котором содержится белок, для которого выравнивание обладало e-value=1.0).

2). Поиск гипотетических гомологов изучаемого белка с фильтром по таксонам
  Поиск в таксоне Homo sapiens Поиск в таксоне Archaea Поиск в таксоне Actinobacteria Поиск в таксоне Alteromanadales Поиск в таксоне Vibrionaceae
Идентификатор БД MCCA_HUMAN PYCB_METTH RRF_RENSM нет нет
E-value (<=0.001) 10-6 4*10-5 0.001    
Вес (в битах) 48.9 42.4 23.1    
% идентичности 37% 41% 43%    
% сходства 51% 60% 50%    
Длина выравнивания 72 51 30    
Координаты выравнивания (номера первых и последних а.о.) В BCCP_ECOLI с 85 по 156, в MCCA_HUMAN с 651 по 715 В BCCP_ECOLI с 106 по 156, в PYCB_METTH с 518 по 568 В BCCP_ECOLI с 29 по 57, в RRF_RENSM с 26 по 55    
% гэпов 9% 0% 3%    
При поиске гомологов лучшие были найдены у наиболее отдаленных от E.coli таксонов. Наличие возможного гомолога в homo sapiens может говорить о его ортологичном происхождении (хотя огромный эволюционный разрыв между этими таксонами мог привести просто к случайному совпадению участков их последовательностей, ведь e-value гомолога в homo sapiens не очень мала).
Homo sapiens - вид. Другие возможные гомологи были найдены в царстве Архей и в отделе Актинобактерий. В таксонах меньшего порядка (в порядке Alteromanadales и семействе Vibrionaceae) гомологов найдено не было. Причиной этого может являться то, что гомологов в организмах этих таксонов нет. Другой причиной этого можно назвать то, что в таксоне, охватывающем большее число организмов, вероятность найти гомолог белку из E.coli больше. Третья возможная причина - этот белок, возможно, не был открыт открыт в данном таксоне, а подробное исследование и поиск гомологов данного белка проводилось в других таксонах.

3). Поиск белка по его фрагменту
Фрагмент некоего белка представлен последовательностью в fasta формате:
		  >seq
		  AAPAPAAAAPAAAAAESAPAAPKLN 
		  
В результате поиска в BLASTP был найден белок BCCP_PSEAE c последовательностью:
		  >gi|584830|sp|P37799.1|BCCP_PSEAE
		  MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPVAAPAPAAAAPAAAAAE
		  SAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIVEAMKMMNHIEAEVSGTIESILV
		  ENGQPVEFDQPLFTIV
		  
Таблица 2. Результаты поиска белка в Swiss-Prot по фрагменту последовательности
  Поиск по фрагменту Поиск по полной
последовательности
АС лучшей находки P37799 P37799
E-value 9*10-14 10-84
Вес (в битах) 73,6 311
Найдены ли другие белки с теми же значениями E-value и веса в битах?
Нет Нет
Как и следовало ожидать, наилучшее выравнивание как фрагмента, так и целой последовательности белка происходит с последовательностью этого же белка (содержмое ячеек таблицы в строке AC совпадает). Вес этих выравниваний разный в силу разных длин последовательности. Очень сильно различаются значения e-value: оно в десятки раз больше у фрагмента, чем у полной последовательности. В приведенной выше формуле для e-value (E=l*L*K*e-λS)в данном случае важными параметрами являются l - длина последовательности и S - вес последовательности. Длина выравнивания полных последовательностей больше, чем выравнивание с фрагментом, однако гораздо больше и вес выравнивания. Так как вес со знаком минус, умноженный на λ, стоит в показателе степени, и e-value с большим весом в 10-и раз меньше e-value с меньшим весом, то можно сделать вывод, что именно из-за разницы в весе значения e-value различаются.

Теперь, когда белок, соответствующий фрагменту последовательности определен, можно проанализировать его выравнивание с белком BCCP_ECOLI.
Здесь было приведено пробное выравнивание фрагментов из белков BCCP_ECOLI и BCCP_PSEAE при помощи программы Gendoc. Ниже приведено выравнивание полных последовательностей этих белков при помощи BLAST (жирно выделены фрагменты локального выравнивания).
		 Длина:		157
		 Идентичность:	102/157 (64%)
		 Сходство:	123/157 (78%)
		 Гэпы:		4/157 (2%)
		 Вес:		191 бит (485)

		 BCCP_PSEAE    MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPV-AAPAP  59
            	 	       MDIRK+KKLIEL+EESGI ELEI EGEESVRISR +  A+ PV  QA  +AAP+   PA 
		 BCCP_ECOLI    MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQA--YAAPMMQQPAQ  58

		 BCCP_PSEAE    A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV  118
		               + AAAPA   +  APAA +++G++VRSPMVGTFYR  SP +  F+EVGQ V  GD LCIV
		 BCCP_ECOLI    SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV  118

		 BCCP_PSEAE    EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTI  155
	                       EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL  I
		 BCCP_ECOLI    EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVI  155
		 
Если теперь отдельно выписать выравнивание фрагментов из выравнивания последовательностей и сравнить с тем, что было получено здесь в пункте 2 дополнительных заданий, то окажется. что 2 локальных выравнивания совпадают. Интересно, что в пробных выравниях данный способ имел наибольший вес по матрице BLOSUM62 наравне с другим, где отсутствовал гэп в последовательности белка BCCP_PSEAE. Оказалось, что именно выравнивание с гэпом было выведено в BLAST (оно обладало лучшей идентичностью и сходством).

4). Сравнение выравниваний, выданных программой BLASTP, с оптимальными глобальным и локальным выравниваниями. (далее на выравниваниях жирным шрифтом будут отмечаться их различия с выравниванием, полученным из BLASTP)
Оптимальное глобальное выравнивание программой needle
		 Длина:		158
		 Идентичность:  102/158 (64.6%)
		 Сходство:   	123/158 (77.8%)
		 Гэпы:          4/158 ( 2.5%)
		 Вес: 		476.0

                 BCCP_ECOLI    MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQ--AYAAPMMQQPAQ  58
		               MDIRKIKKLIEL+EESGI ELEI EGEESVRISR +  A+ PV  Q  A+AAP +  PA
		 BCCP_PSEAE    MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAP-VAAPAP  59


		 BCCP_ECOLI    SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV  118
		               + AAAPA   +  APAA +++G++VRSPMVGTFYR  SP +  F+EVGQ V  GD LCIV
		 BCCP_PSEAE    A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV  118


		 BCCP_ECOLI    EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVIE  156
		               EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL  I
		 BCCP_PSEAE    EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTIV  156
                 
В этом выравнивании есть 2 маленьких участка, отличных от выравнивания в BLASTP: с 47 по 49 и с 54 по 55, плюс дополнительная колонка в конце выравнивания. Сравнивая проценты идентичности, сходства и гэпов, можно сказать, что они похожи с показателями из BLASTP (к тому же, там эти значения,по-видимому, были округлены). А вот веса выравниваний различаются: в needle вес равен 476, а в BLASTP - 485, что соотвестствует 191 биту.

Oптимальное глобальное выравнивание программой stretcher
		 Длина: 	158
		 Идентичность:  102/158 (64.6%)
		 Сходство:  	123/158 (77.8%)
		 Гэпы:          4/158 ( 2.5%)
		 Вес: 		476

		 BCCP_ECOLI    MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQA--YAAPMMQQPAQ  58
		               MDIRK+KKLIIL+EESGI ELEI EGEESVRISR +  A+ PV  QA  +AAP+   PA 
		 BCCP_PSEAE    MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPVAA-PAP  59

        
		 BCCP_ECOLI    SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV  118
		               + AAAPA   +  APAA +++G++VRSPMVGTFYR  SP +  F+EVGQ V  GD LCIV
		 BCCP_PSEAE    A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV  118
     
     
		 BCCP_ECOLI    EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVIE  156
		               EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL  I 
		 BCCP_PSEAE    EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTIV  156
		 
В этом выравнивании только один участок, отличный от выравнивания в BLASTP: с 55 по 57, плюс дополнительная колонка, как в предыдущем случае. Во всем остальном это выравнивание сходно с тем, что в needle: по идентичности, сходству, гэпам и весу, а следовательно его сравнение с выравниванием из BLASTP такое же.

Оптимальное локальное выравнивание программой water
		 Длина: 	157
		 Идентичность:  102/157 (65.0%)
		 Сходство:   	123/157 (78.3%)
		 Гэпы:          4/157 ( 2.5%)
		 Вес: 		478.0

                 BCCP_ECOLI    MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQ--AYAAPMMQQPAQ  58
		               MDIRKIKKLIEL+EESGI ELEI EGEESVRISR +  A+ PV  Q  A+AAP +  PA
		 BCCP_PSEAE    MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAP-VAAPAP  59


		 BCCP_ECOLI    SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV  118
		               + AAAPA   +  APAA +++G++VRSPMVGTFYR  SP +  F+EVGQ V  GD LCIV
		 BCCP_PSEAE    A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV  118


		 BCCP_ECOLI    EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVI  155
		               EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL  I
		 BCCP_PSEAE    EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTI  155
                 
Это выравнивание полностью совпадает с выравниванием в needle за исключением последней колонки: здесь ее нет. Так как нет колонки, то длина уменьшается, а это увеличивает все показатели: идентичность, сходство, гэпы. Здесь различия с показателями для BLASTP должно быть меньше, чем в глобальных выравниваниях.

Оптимальное локальное выравнивание программой matcher
		 Длина: 	157
		 Идентичность:  102/157 (65.0%)
		 Сходство:	123/157 (78.3%)
		 Гэпы:          4/157 ( 2.5%)
		 Вес: 		478

		 BCCP_ECOLI    MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAASFPVMQQA--YAAPMMQQPAQ  58
		               MDIRK+KKLIIL+EESGI ELEI EGEESVRISR +  A+ PV  QA  +AAP+   PA 
		 BCCP_PSEAE    MDIRKVKKLIELLEESGIDELEIREGEESVRISRHSKTAAQPVYAQAPAFAAPVAA-PAP  59

        
		 BCCP_ECOLI    SNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIV  118
		               + AAAPA   +  APAA +++G++VRSPMVGTFYR  SP +  F+EVGQ V  GD LCIV
		 BCCP_PSEAE    A-AAAPAAAAAESAPAAPKLNGNVVRSPMVGTFYRAASPTSANFVEVGQSVKKGDILCIV  118
     
     
		 BCCP_ECOLI    EAMKMMNQIEADKSGTVKAILVESGQPVEFDEPLVVI  155
		               EAMKMMN IEA+ SGT+++ILVE+GQPVEFD+PL  I 
		 BCCP_PSEAE    EAMKMMNHIEAEVSGTIESILVENGQPVEFDQPLFTI  155
		 
Это выравнивание полностью совпадает с тем, что построено программой stretcher, за исключением последней колонки: как и в предыдущем случае, она здесь отсутствует. По аналогии с предыдущим случаем, все показатели увеличились.

Таким образом, выравнивания этих белков программами пакета EMBOSS (needle, water, stretcher и matcher) практически не отличаются от выравнивания в BLASTP при одинаковых параметрах для штрафов за гэпы. Это говорит о схожести структур белков: возможны лишь малые вариации в выравниваниях в зависимости от программы, но для достижения максимального веса возможно использования сильно ограниченного числа способов.

© Яшина 2009