((((А:90,B:90):35,C:70):30,D:50):10,(E:60,F:60):40);Расстояния даны как число мутаций на 100 нуклеотидных остатков.
A B C D E F . . * * * * . . . * * * . . . . * *
n=2286*distance/100Текст скрипта, которым получаются мутантные последовательности:
msbar rir1_gene.fasta ef -point 4 -count 914 -auto msbar ef e -point 4 -count 1372 -auto msbar ef f -point 4 -count 1372 -auto msbar rir1_gene.fasta abcd -point 4 -count 229 -auto msbar abcd d -point 4 -count 1143 -auto msbar abcd abc -point 4 -count 686 -auto msbar abc ab -point 4 -count 800 -auto msbar abc c -point 4 -count 1600 -auto msbar ab a -point 4 -count 2057 -auto msbar ab b -point 4 -count 2057 -autoЗатем все листья (содержимое файлов a,b,c,d,e,f) были помещены в файл ali.fasta.
fdnadist ali.fasta -ttratio 1 -auto #вычисление попарных расстояний fneighbor ali.fdnadist -treetype u -auto #реконструкция дереваNeighbor-joining:
fdnadist ali.fasta -ttratio 1 -auto #вычисление попарных расстояний fneighbor ali.fdnadist -outfile neighbor -auto #реконструкция дереваи максимального правдоподобия:
fdnaml ali.fasta -ttratio 1 -auto #реконструкция дерева
+--------------------B | | +------------F | +-------------4 | +-------3 +--------------E | | | 1---------2 +----------D | | | +--------------C | +-------------------AАлгоритм UPGMA дает дерево в виде кладограммы(выходной файл ali.fneighbor):
+----------------------------------------A +------------------3 ! +----------------------------------------B ! --5 +----------------------------------C ! +-----------2 ! ! +----------------------------------D +------------4 ! +---------------------------E +------------------1 +---------------------------FАлгоритм Neighbor-joining дает дерево в виде филограммы(выходной файл neighbor):
+---------------------B ! ! +--------------C 2----------3 ! ! +---------D ! +---------4 ! ! +----------------E ! +---------------1 ! +-----------F ! +------------------AПредставляя ветви каждого дерева как разбиения множества листьев, составим таблицу, указывающую какие ветви встречаются в деревьях, полученных разными алгоритмами.
A B C D E F | Исходное дерево | Алгоритм максимального правдоподобия | Алгоритм UPGMA | Алгоритм Neighbor-joining |
. . * * * * | + | + | + | + |
. . . * * * | + | + | + | |
. . . . * * | + | + | + | + |
. . * * . . | + |
На стр. "All_data" была составлена таблица с "истинными" попарными расстояниями (число замен на 100 нуклеотидов).
distmat -sequence ali.fasta -outfile uncor -nucmethod 0 distmat -sequence ali.fasta -outfile jc -nucmethod 1 distmat -sequence ali.fasta -outfile kimura -nucmethod 2
На вход программе подается множественное выравнивание полученных мутантных последовательностей и исходной.
Выбирая различные методы (nucmethod) были построены следующие матрицы попарных расстояний:
Данные из выходных файлов distmat также были помещены на стр. "All_data".
Диапазон, в котором полученные оценки эволюционных расстояний близки к "истинным", - от 0 до ~40 замен на 100 н.п.
Начиная с 60 замен на 100 н.п. оценка эволюционных расстояний в несовпадениях на 100 н.п. сильно отклоняется от реального числа эволюционных событий.
Возможно, это объясняется тем, что число несовпадений на 100 н.п. просто не может быть больше 100, в то время как реальное эволюционное расстояние может за
счет того, что происходят повторные замены.
Гораздо лучше работают оценки Кимуры и Джукса-Кантора, учитывающие возможные повторные замены. Сами методы оценки не отличаются по качеству, исходя из полученных результатов, несмотря на то, что модель Джукса-Кантора однопараметрическая (вероятности появления разных нуклеотидов в случае мутации равны), а Кимуры - двупараметрическая (вероятность появления AT пары выше вероятности появления GC). Скорее всего, в нашей модели эти оценки полностью совпали из-за того, что при ее построении все замены были равновероятны. На мой взгляд, примерно до величины расстояния равной 100 замен на 100 н.п. данные методы дают неплохую оценку эволюционного расстояния.
В целом, чем больше расстояния между последовательностями, тем хуже оценка любой из рассмотренных моделей, и, как только появляются повторные замены, заметно ухудшается оценка даже теми методами, которые их учитывают.
Вернуться к списку протоколов.