Главная

Множественное выравнивание

Результаты упражнений

  1. Выбранные гомологичные последовательности
  2. Выравнивание с помощью программы emma

  3. Выравнивание с помощью программы muscle
  4. Примечание: в выравнивании muscle получили 32 красных колонки и 38 синих, а выравнивание программой emma дало 28 красных колонок и 38 синих.

  5. Матрица попарного совпадения последовательностей, получена на основе множественного выравнивания с помощью программы emma.
  6. Сравнение 2-х множественных выравниваний
  7. Примечание: В большинстве случаев консервативные остатки совпадают, хотя соответствующие позиции выравнивания сдвинуты на несколько остатков. различия есть только в первых 20-30 позициях выравнивания - в варианте muscle больше консервативных на 100% остатков, и хотя появляются два дополнительных гэпа, можно сказать, что выравнивание muscle лучше, така как заметно больше консервативных на 100% колонок.

  8. Сравнение оптимального попарного выравнивания последовательностей и с их попарным выравниванием, порожденным множественным выравниванием

    Примечание: В первых 20-30 позициях выравнивания в последнем вырианте (по needle) совпадений заметно больше, хотя и гэпов тоже, но дальше все три выравнивания (во всяком случае совпадающие аминокислоты) идентичны, разве что результат muscle сдвинут на несколько позиций относительно двух других выравниваний. Таким образом, явных несоответствий на этом примере не оказалось.

  9. Программа infoalign пакета EMBOSS
  10. 	Эта программа записывает в специально для этого создающийся файл информацию о выравнивании 
    в виде таблицы. Для выравнивания моих белков с помощью программы emma она имеет такой вид:
    
     
    # USA                                            Name        SeqLen	AlignLen Gaps	GapLen	Ident	Similar	Differ	% Change	Weight	      Description
    fasta::EMMAybey_ecoli.aln:Y2336_CHRSD   	Y2336_CHRSD   154	158	  2	4	82	12	60	48.101265	1.000000	
    fasta::EMMAybey_ecoli.aln:Y5434_PSEF5	        Y5434_PSEF5   152	155	  1	3	79	21	52	49.032257	1.000000	
    fasta::EMMAybey_ecoli.aln:Y2740_MARAV	        Y2740_MARAV   157	161	  2	4	81	17	59	49.689442	1.000000	
    fasta::EMMAybey_ecoli.aln:YBEY_ECOLI	        YBEY_ECOLI    155	161	  2 	6	110	14	31	31.677019	1.000000	
    fasta::EMMAybey_ecoli.aln:Y2880_PHOPR	        Y2880_PHOPR   154	160	  2	6	107	12	35	33.125000	1.000000	
    fasta::EMMAybey_ecoli.aln:Y2480_HAEIG	        Y2480_HAEIG   154	160	  2	6	104	13	37	35.000000	1.000000	
    fasta::EMMAybey_ecoli.aln:Y694_ACTP2	        Y694_ACTP2    163	164	  1	1	112	6	45	31.707317	1.000000	
    fasta::EMMAybey_ecoli.aln:Y324_BLOPB	        Y324_BLOPB    157	163	  2	6	76	24	57	53.374233	1.000000	
    fasta::EMMAybey_ecoli.aln:Y393_BUCBP	        Y393_BUCBP    154	159	  2	5	60	32	62	62.264153	1.000000	
    
    	Из этой таблицы можно извлечь такие данные как длины выравниваний и число и общую длину гэпов
     для каждой цепи,количество идентичных и сходных аминокислотных остатков. Для 
    того, чтобы узнать вес выравнивания, этой программмы недостаточно, если вес неизвестен, он выдается 
    равным единице. Для сравнения, результат работы этой программы для выравнивания построенного с помощью
    musckle выглядит так:
    
    # USA                                              Name      SeqLen   AlignLen	Gaps	GapLen	Ident	Similar	Differ	% Change	Weight	         Description
    fasta::MUSCLEybey_ecoli.fasta:M-Y393_BUCBP	M-Y393_BUCBP  154	161	3	7	59	33	62	63.354038	1.000000	Putative metalloprotease bbp_393
    fasta::MUSCLEybey_ecoli.fasta:M-Y324_BLOPB	M-Y324_BLOPB  157	165	4	8	77	21	59	53.333332	1.000000	Putative metalloprotease BPEN_324
    fasta::MUSCLEybey_ecoli.fasta:M-Y5434_PSEF5	M-Y5434_PSEF5 152	161	3	9	84	21	47	47.826088	1.000000	Putative metalloprotease PFL_5434
    fasta::MUSCLEybey_ecoli.fasta:M-Y2336_CHRSD	M-Y2336_CHRSD 154	159	3	5	85	13	56	46.540882	1.000000	Putative metalloprotease Csal_2336
    fasta::MUSCLEybey_ecoli.fasta:M-Y2740_MARAV	M-Y2740_MARAV 157	167	5	10	90	17	50	46.107784	1.000000	Putative metalloprotease Maqu_2740
    fasta::MUSCLEybey_ecoli.fasta:M-Y694_ACTP2	M-Y694_ACTP2  163	166	3	3	109	6	48	34.337349	1.000000	Putative metalloprotease APL_0694
    fasta::MUSCLEybey_ecoli.fasta:M-Y2480_HAEIG	M-Y2480_HAEIG 154	162	4	8	106	12	36	34.567902	1.000000	Putative metalloprotease CGSHiGG_02480
    fasta::MUSCLEybey_ecoli.fasta:M-Y2880_PHOPR	M-Y2880_PHOPR 154	162	4	8	107	12	35	33.950619	1.000000	Putative metalloprotease PBPRA2880
    fasta::MUSCLEybey_ecoli.fasta:M-YBEY_ECOLI	M-YBEY_ECOLI  155	163	4	8	110	13	32	32.515339	1.000000	Putative metalloprotease ybeY
    
    	Сравнение этих данных полезно при сравнении результатов работы разных программ. Так, кроме уже 
    отмеченных различий (разное число и длина гэпов) можно сказать, чем собственно различаются выравнивания.
    Если просуммировать проценты сходства в одном и другом выравнивании,они окажутся примерно одинаковыми.
    Но в разных выравниваниях разным белкам соответствуют разные проценты идентичных остатков. Другими словами, по 
    emma ближе всехдруг к другу одни белки, по muscle - другие. В этом случае "правильность" или биологическую
    целесообразность выравнивания можно проверить по степени родства организмов из которых взяты эти белки.
    То есть если белкам с высоким процентом совпадения соответствуют более близкие организмы, выравнивание вероятно
    ближе к истине. Хотя, наверное, это не всегда так. А если учесть что в моем конкретном случае все белки
    putative я бы не стала настаивать на поиске биологического смысла в выравнивании между ними.
    

Дополнительную информацию об этой программе посмотрим на сайте EMBOSS infoalign. Из этого описания следует, что проценты идентичности последовательностей считаются по отношению к контрольной последовательности, которая по умолчанию высчитывается как консенсусная последовательность (подобно тому, как это делает prophecy) или это может быть одна из исходных последовательностей выбранная либо по порядковому номеру в списке выравнивания, либо по алфавиту.



©Шалаева Дарья 2007