Примечание: в выравнивании muscle получили 32 красных колонки и 38 синих, а выравнивание программой emma дало 28 красных колонок и 38 синих.
Примечание: В большинстве случаев консервативные остатки совпадают, хотя соответствующие позиции выравнивания сдвинуты на несколько остатков. различия есть только в первых 20-30 позициях выравнивания - в варианте muscle больше консервативных на 100% остатков, и хотя появляются два дополнительных гэпа, можно сказать, что выравнивание muscle лучше, така как заметно больше консервативных на 100% колонок.
Примечание: В первых 20-30 позициях выравнивания в последнем вырианте (по needle) совпадений заметно больше, хотя и гэпов тоже, но дальше все три выравнивания (во всяком случае совпадающие аминокислоты) идентичны, разве что результат muscle сдвинут на несколько позиций относительно двух других выравниваний. Таким образом, явных несоответствий на этом примере не оказалось.
Эта программа записывает в специально для этого создающийся файл информацию о выравнивании в виде таблицы. Для выравнивания моих белков с помощью программы emma она имеет такой вид: # USA Name SeqLen AlignLen Gaps GapLen Ident Similar Differ % Change Weight Description fasta::EMMAybey_ecoli.aln:Y2336_CHRSD Y2336_CHRSD 154 158 2 4 82 12 60 48.101265 1.000000 fasta::EMMAybey_ecoli.aln:Y5434_PSEF5 Y5434_PSEF5 152 155 1 3 79 21 52 49.032257 1.000000 fasta::EMMAybey_ecoli.aln:Y2740_MARAV Y2740_MARAV 157 161 2 4 81 17 59 49.689442 1.000000 fasta::EMMAybey_ecoli.aln:YBEY_ECOLI YBEY_ECOLI 155 161 2 6 110 14 31 31.677019 1.000000 fasta::EMMAybey_ecoli.aln:Y2880_PHOPR Y2880_PHOPR 154 160 2 6 107 12 35 33.125000 1.000000 fasta::EMMAybey_ecoli.aln:Y2480_HAEIG Y2480_HAEIG 154 160 2 6 104 13 37 35.000000 1.000000 fasta::EMMAybey_ecoli.aln:Y694_ACTP2 Y694_ACTP2 163 164 1 1 112 6 45 31.707317 1.000000 fasta::EMMAybey_ecoli.aln:Y324_BLOPB Y324_BLOPB 157 163 2 6 76 24 57 53.374233 1.000000 fasta::EMMAybey_ecoli.aln:Y393_BUCBP Y393_BUCBP 154 159 2 5 60 32 62 62.264153 1.000000 Из этой таблицы можно извлечь такие данные как длины выравниваний и число и общую длину гэпов для каждой цепи,количество идентичных и сходных аминокислотных остатков. Для того, чтобы узнать вес выравнивания, этой программмы недостаточно, если вес неизвестен, он выдается равным единице. Для сравнения, результат работы этой программы для выравнивания построенного с помощью musckle выглядит так: # USA Name SeqLen AlignLen Gaps GapLen Ident Similar Differ % Change Weight Description fasta::MUSCLEybey_ecoli.fasta:M-Y393_BUCBP M-Y393_BUCBP 154 161 3 7 59 33 62 63.354038 1.000000 Putative metalloprotease bbp_393 fasta::MUSCLEybey_ecoli.fasta:M-Y324_BLOPB M-Y324_BLOPB 157 165 4 8 77 21 59 53.333332 1.000000 Putative metalloprotease BPEN_324 fasta::MUSCLEybey_ecoli.fasta:M-Y5434_PSEF5 M-Y5434_PSEF5 152 161 3 9 84 21 47 47.826088 1.000000 Putative metalloprotease PFL_5434 fasta::MUSCLEybey_ecoli.fasta:M-Y2336_CHRSD M-Y2336_CHRSD 154 159 3 5 85 13 56 46.540882 1.000000 Putative metalloprotease Csal_2336 fasta::MUSCLEybey_ecoli.fasta:M-Y2740_MARAV M-Y2740_MARAV 157 167 5 10 90 17 50 46.107784 1.000000 Putative metalloprotease Maqu_2740 fasta::MUSCLEybey_ecoli.fasta:M-Y694_ACTP2 M-Y694_ACTP2 163 166 3 3 109 6 48 34.337349 1.000000 Putative metalloprotease APL_0694 fasta::MUSCLEybey_ecoli.fasta:M-Y2480_HAEIG M-Y2480_HAEIG 154 162 4 8 106 12 36 34.567902 1.000000 Putative metalloprotease CGSHiGG_02480 fasta::MUSCLEybey_ecoli.fasta:M-Y2880_PHOPR M-Y2880_PHOPR 154 162 4 8 107 12 35 33.950619 1.000000 Putative metalloprotease PBPRA2880 fasta::MUSCLEybey_ecoli.fasta:M-YBEY_ECOLI M-YBEY_ECOLI 155 163 4 8 110 13 32 32.515339 1.000000 Putative metalloprotease ybeY Сравнение этих данных полезно при сравнении результатов работы разных программ. Так, кроме уже отмеченных различий (разное число и длина гэпов) можно сказать, чем собственно различаются выравнивания. Если просуммировать проценты сходства в одном и другом выравнивании,они окажутся примерно одинаковыми. Но в разных выравниваниях разным белкам соответствуют разные проценты идентичных остатков. Другими словами, по emma ближе всехдруг к другу одни белки, по muscle - другие. В этом случае "правильность" или биологическую целесообразность выравнивания можно проверить по степени родства организмов из которых взяты эти белки. То есть если белкам с высоким процентом совпадения соответствуют более близкие организмы, выравнивание вероятно ближе к истине. Хотя, наверное, это не всегда так. А если учесть что в моем конкретном случае все белки putative я бы не стала настаивать на поиске биологического смысла в выравнивании между ними.
Дополнительную информацию об этой программе посмотрим на сайте EMBOSS infoalign. Из этого описания следует, что проценты идентичности последовательностей считаются по отношению к контрольной последовательности, которая по умолчанию высчитывается как консенсусная последовательность (подобно тому, как это делает prophecy) или это может быть одна из исходных последовательностей выбранная либо по порядковому номеру в списке выравнивания, либо по алфавиту.