Московский Государственный Университет имени М.В.Ломоносова

Факультет Биоинженерии и Биоинформатики

Учебный сайт Сеферяна Мелика

Главная

I Семестр

II Семестр

Проекты

Официальный сайт ФББ

Официальный сайт МГУ

Полезные ссылки

Множественное выравнивание последовательностей.

I. Ознакомление с программой Muscle.

Построим множественное выравнивание для вирусных белков - "дельта-антигенов".
По запросу ([swissprot-Taxonomy:Deltavirus] & [swissprot-Description:delta]) в SRS найдено 34 последовательности.
Далее файл с невыровенными последовательностями этих белков в fasta-формате delta.fasta обработаем программой muscle. На выходе имеем файл (также в fasta-формате), содержащий выравнивание delta_aligned.fasta.
Невыровненные последовательности: картинка delta.gif, файл в формате .msf delta.msf
Выровненные последовательности: картинка delta_aligned.gif, файл в формате .msf delta_aligned.msf

Даже в наборе невыровненных последовательностей нашлись консервативные позиции, хотя мне кажется это скорее случайность, чем закономерность.
Кроме того, программа muscle изменяет порядок следования последовательностей, как именно - пока не понятно.

II. Выравнивание набора гомологов белка RISA_ECOLI.

Выберем 10 гомологов данного белка (Evalue < 0.001), но не слишком похожих (Identity < 90%), из как можно более удаленных друг от друга таксонов. Файл с амонокислотными последовательностями этих белков: risa_ecoli_homologs.fasta
Построим для них выравнивание с помощью программы muscle.
Файл с выравниванием в fasta-формате: risa_ecoli_homologs_aligned.fasta.
В формате msf: risa_ecoli_homologs_aligned.msf.

Участки с повышенной долей консервативных позиций:

По столбцам выравнивания По остаткам белка RISA_ECOLI
1 - 7 1- 7
39 - 51 39 - 51
63 - 72 62 - 71
83- 104 82 - 103
138 - 189 137 - 185

В данном выравнивании, я думаю нет участков, лишенных биологического смысла. Хотя возможно программа может ошибиться с позициями гэпов в нефункциональных участках, но ведь нас они не интересуют, нам важны только консервативные позиции.

III.* Другие программы множественного выравнивания.

Выравнивание, построенное программой mafft:
Файл с выравниванием в fasta-формате: risa_ecoli_homologs_mafft.fasta.
В формате msf: risa_ecoli_homologs_mafft.msf.

Выравнивание, построенное программой edialign:
Файл с выравниванием в fasta-формате: risa_ecoli_homologs_edialign.fasta.
В формате msf: risa_ecoli_homologs_edialign.msf.

Все три программы нашли одни и те же консервативные позиции. Небольшие отличия имеются только лишь в гэпах на нефункциональных участках. Кроме того, mafft и edialign, в отличие от muscle не меняют порядок следования последовательностей из входного файла, а также зачем-то выравнивают последние ~20 а.о., что как мне кажется не несет в себе какого-либо биологического смысла.

IV.* Знакомство с некоторыми программами обработки множественных выравниваний.

1. Программа consambig.

Программа consambig создает последовательность, В которой записаны все консервативные остатки (заглавными буквами), Несовпадающие а.о. отмечены буквой "X", если хотя бы в одной из исходных последовательностей стоит гэп, то эта позиция будет отмечена буквой в нижнем регистре.
Вот результат применения этой программы к выравниванию, построенному muscle: risa_ecoli_homologs_consambig.fasta

>EMBOSS_001
MFXGJXXXXXXXXXXXXXXXXXXXXXXXXxxxXXXXXxGXXXXXBGXCLTXXXXXXXgXX
XXDXXXETXXXXXXXXXXXXXXXNXEXXXXXXXXXGGHXXXGHXXXXXXXXXXXXXxxxx
XXXXXXXxXXXXXXXXXKGXXXXDGXSXTXXXXXXXXrdwXXXXXXPXTXXXTXXXXXXX
XXXXNXEXDXXXXXXXXXXXXXXxxxxxxxxxxxxxxxxgfis
Привлекают внимание буквы "J" и "B". В случае с "J" один из девяти изолейцинов был заменен на лейцин, в случае с "B" - один из девяти аспарагинов был заменен на аспарагиновую кислоту. Программа учитывает близкородственные замены. Кстати если подобных замен будет две, а не одна, то программа уже поставит "X".

2. Программа distmat.

Программа создает матрицу, показывающую эволюционное расстояние между белками: risa_ecoli_homologs_aligned.distmat

 Distance Matrix
---------------

Uncorrected for Multiple Substitutions
Gap weighting is 0.000000

	    1	    2	    3	    4	    5	    6	    7	    8	    9
	  0.00	 64.25	 63.45	 60.47	 64.65	 66.67	 70.14	 69.34	 67.00		RISA_PHOLE 1
		  0.00	 55.90	 57.49	 63.29	 68.37	 64.73	 66.67	 66.00		RISA_AQUAE 2
			  0.00	 49.24	 55.84	 62.50	 68.53	 64.47	 63.45		RISA_MYCTU 3
				  0.00	 45.12	 62.63	 68.10	 63.03	 63.37		RISA_ACTPL 4
					  0.00	 61.62	 68.10	 68.72	 63.86		RISA_BACAM 5
						  0.00	 65.15	 61.11	 61.42		RISA_CHLMU 6
							  0.00	 55.66	 54.41		RISA_BUCBP 7
								  0.00	 34.80		RISA_ECOLI 8
									  0.00		RISA_HAEIN 9
Не совсем ясно, как именно считать эволюционное расстояние между двумя белками, но действительно, если посмотреть, расстояние между найденными белками и RISA_ECOLI увеличивается по мере увеличения Evalue (при поиске гомологов RISA_ECOLI). То есть чем более различны 2 последовательности, тем они эволюционно дальше друг от друга.

3. Программа plotcon.

Программа plotcon показывает распределение консервативных участков по длине выравнивания.
Результат применения программы к выравниванию, построенному muscle:



© Сеферян Мелик, 2008 seferyan_m@mail.ru