Множественное выравнивание последовательностей

1) Ознакомление с программой Muscle

В БД SRS я нашёл последовательности дельта-антигенов из вирусов рода Deltavirus. Для этого был осуществлён поиск слова "delta" по полю Description и "Deltavirus" по полю Taxonomy, так как все дельта антигены происходят из этого рода вирусов. Найденные последовательности я сохранил в файл delta.fasta
Сперва я выполнил выравнивание этих последовательностей вручную. (msf).
Затем я выровнял те же последовательности с помощью программы muscle (msf).

Картинка с выравниваниями

Выравнивания получились очень похожими, совпали почти все схожие и идентичные участки.


2) Выравнивание набора гомологов своего белка

С помощью BLAST я получил все гомологи своего белка (OMPT_ECOLI) среди бактерий с E-value < 0.001. К сожалению, гомологов оказалось не так много, всего 5, и все они достаточно близкородственны, пренадлежат организмам отряда Enterobacteriaceae. Эти белки: OMPT_ECOLI, OMPT_ECO57, OMPP_ECOLI, ICSP_SHIFL, PGTE_SALTY, COLY_YERPE. Среди них я выбрал те, которые принадлежат разным родам организмов, затем получил выравнивание этих белков в программе muscle (msf).

Картинка с выравниванием

Повышена доля консервативных а.о. в следующих участках:
Выравнивание OMPT_ECOLI
60-82 56-78
120-174 116-170
185-207 181-203
260-274 256-270
303-322 298-317

Биологического смысла, скорее всего, не имеют участки:
Выравнивание OMPT_ECOLI
1-32 1-28
275-300 271-296

Участки, не попавшие ни в одну из групп, не так


***

1) Другие программы множественного выравнивания

Я выравнял гомологи своего белка с помощью программ mafft и edialign.

Картинка с выравниванием

Как и следовало ожидать, в выравниваниях, сделанных различными программами, совпали достаточно консервативные участки. Но имеются различия в некоторых местах. Это связано с тем, что программы используют разные алгоритмы выравнивания. Вероятно, идеального алгоритма, находящего выравнивание с максимальным весом, ещё не придумали.

2) Знакомство с некоторыми программами обработки множественных выравниваний

I. Сперва программа consambig. По множественному выравниванию она создаёт последовательность, состоящую из а.о. и знаков "X". Аминокислотные остатки ставятся на те позиции, в которых во множественном выравнивании все а.о. идентичны, а "X" - на все остальные. Если хотя бы в одной из последовательностей имеется гэп, то используются строчные латинские буквы, иначе - прописные.
В качестве входного файла я взял выравнивание гомологов моего белка, сделанное программой muscle.

>EMBOSS_001
mxXKXXXJXXXXXXXXXXXXXXXXXXXXpbxsPDXXXXXXSXGXLXGKXXEXXYXXxXXG
RKXSQLDWKXXNXXXXXGXJXWXXXXXXXXXXXGWTXLXXXXXXMXDXDWXXXXXXXxWT
DXSXHPXTXXXXANEXXLNXKGWLLXXXBYXXGXXAGYQEXRXSXXAXGGSYXYsXXXXX
XbxxGXXPXGXRXIGYXQXFXXPYIGLXXXYRXXBFEXXXXXKXSXWVXXXDXDXHYXpg
XXXXXXXXXXXXXYXXXXXBXGYYXTXXAKXXXEXXXXXXXXXKGXTXXXXXXXXXXXXX
gXBXAXIXXXXXXXXAGJXYXF
II. Программа distmat. Эта программа рассчитывает, насколько далеки выравненные последовательности, выражая это в количестве замен на 100 а.о. Результат выдаётся в виде таблицы.
Входной файл тот же.
    1	    2	    3	    4
  0.00	 32.56	 73.42	 95.57		PGTE_SALTY 1
	  0.00	 70.64	 93.81		COLY_YERPE 2
		  0.00	 55.27		OMPT_ECOLI 3
			  0.00		ICSP_SHIFL 4 
III. И программа plotcon. По выравниванию программа строит диаграмму консервативности. Более консервативные участки имеют большее значение на диаграмме.



© Айдарханов Руслан 2008