На главную страницу четвертого семестра evolution

Моделирование и реконструкция эволюции гена

Целью этого занятия является моделирование эволюции конкретного белка по заданному сценарию, воспроизведение возможных мутантов и реконструкция дерева эволюции по имеющимся последовательностям мутантов.
Первое задание заключалось в том, чтобы нарисовать эволюционное дерево, основываясь на следующей скобочной формуле: ((((А:50,B:50):15,C:80):20,D:50):10,(E:60,F:60):40);
Был получен следущий результат:

Цифрами обозначены соответствующие эволюционные расстояния, буквами - потомки (листья). Эволюционные расстояния расчитывалисть как число мутаций на 100 нуклеотидов. Это дерево укорененное, не ультраметрическое, т.к. расстояния от корня до потомков не везде одинаковые.

Далее это дерево было представлено, как множество разбиений листьев:

A   B   C   D   E   F
.   .   *   *   *   *
.   .   .   *   *   *
*   *   *   *   .   .

Точками обозначаются те листья, чья общая ветвь "отделяется" от всех остальных, помеченных звёздочками. Ветви, несущие единственный лист, не были обозначены ввиду своей неинформативности.

Теперь предположим, что в корне полученного дерева находится белок AMPA_ECOLI и надо найти мутантные последовательности, соответсвующие его листьям и узлам. Названия потомков будет соответствовать названиям листьев, а названия узловых мутантов - названиям тех листьев, для которых этот узел являеться общим предком. Это задание выполняется с помощью программы msbar пакета EMBOSS:
msbar infile outfile -point 4 -count n -auto,
где -point4 означает что тип точечной мутации - изменения, а число n - количество мутаций, считалось как длина последовательности (1512) умножить на эволюционное расстояние ветви и разделить на 100.
Следующая таблица содержит имя полученного мутанта, значение числа n и скрипт, с помощью которого был получен этот мутант.

Outfile	n	Script
ABCD	151	msbar AMPA_ECOLI_gene.fasta ABCD -point 4 -count 151 -auto
ABC	302	msbar ABCD ABC -point 4 -count 302 -auto
AB	227	msbar ABC AB -point 4 -count 227 -auto
A	756	msbar AB A -point 4 -count 756 -auto
B	756	msbar AB B -point 4 -count 756 -auto
C	1209	msbar ABC C -point 4 -count 1209 -auto
D	756	msbar ABCD D -point 4 -count 756 -auto
EF	605	msbar AMPA_ECOLI_gene.fasta EF -point 4 -count 605 -auto
E	907	msbar EF E -point 4 -count 907 -auto
F	907	msbar EF F -point 4 -count 907 -auto

На основе полученных мутантных последовательностей, восстановим эволюционное дерево тремя различными способами. Предварительно создав файл ali.fasta с "выравниваниями" последовательностей потомков в программе GENEDOC, воспользовалась программой:
fdnaml ali.fasta -ttaratio 1 -auto,
где -ttratio - это отношение транзиций к трансверсиям. Сама эта программа осуществляет алгоритм максимального правдоподобия.
Для выполнения следующих реконструкций дерева, необходимо посчитать попарные раастояния между последовательностями:
fdnadist ali.fasta -ttratio 1 -auto
Используя полученный файл, была проведена реконструкция дерева алгоритмом Neighbor-joining:
fneighbor ali.fdnadist -auto,
и алгоритмом UPGMA
fneighbor ali.fdnadist -outfile ali2.fneighbor -treetype u -auto
В следующей таблице приведены названия алгоритомов, произведенные ими деревья, разбиение листьев ("+" - обозначаются ветви, которые есть в каждом дереве):

Алгоритм	Дерево	Ветви
Исходное		A B C D E F . . * * * * + . . . * * * * * * * . . +
Наибольшее правдоподобие	+---B \| \| +-------------F \| +-------------4 \| +---3 +-------------E \| \| \| 1---2 +-----------D \| \| \| +------------------C \| +-----------A	A B C D E F . . * * * * + . . . * * * * * * * . . +
Neighbor-joining	+--B ! ! +------------------C 3---4 ! ! +------------D ! +---2 ! ! +-------------E ! +--------------1 ! +--------------F ! +-----------A	A B C D E F . . * * * * + . . . * * * * * * * . . +
UPGMA	+--------------A +------------1 +---2 +--------------B ! ! +-------------4 +---------------------------D ! ! --5 +-------------------------------C ! ! +----------------------------E +----------------3 +----------------------------F	A B C D E F . . * * * * + . . * . * * * * * * . . +

Как мы видим из этой таблица, ветви AB и EF есть в каждом дереве, но в дереве алгоритма UPGMA ветвь ABC замещена на ветвь ABD. Кроме того, дерево полученное этим алгоритмом, в отличие от всех остальных, является укорененным. Поскольку UPGMA реконструирует деревья на основе гипотезы молекулярных часов, то можно сделать вывод, что мутация потомка С происходила "быстрее", чем потомка D.
С целью сравнения нескольких алгоритмов подсчета эволюционных расстояний было выполнено следующее задание. В файле Dist.xls на листе All_data представлены таблицы эволюционных расстояний: исходные и выполненные тремя алгоритмами. Данные для таблиц были получены командой:
distmat -sequence ali.fasta -outfile ali.fasta -nucmethod <0,1,2>
Параметр -nucmethod указывает каким алгоритмом следует посчитать расстояния в нуклеотидной последовательности. Доступны следующие алгоритмы:

Uncorrected Distance

Этот метод вычисляет эволюционное расстояние между последовательностями без учета множественных замен,называемое p-distance. Этот метод может быть использован как для нуклеотидных, так и для аминокислотных последовательностей. Гэпы могут игнорироваться и учитываться, если используется опция -gapweight. Гэпы на концах штрафуются точно так же, как и внутренние. Считаются только полные совпадения. Используя опцию -ambiguous, можно считать "частичные" совпадения между остатками.
S = кол-во_совпадений / (кол-во_позиций + кол-во_гэпов * штраф_за_гэп)
D = uncorrected distance = p-distance = 1 - S

Jukes-Cantor Distance

Этот метод используется и для нуклеотидных, и для аминокислотных последовательностей. Так же как и в методе Uncorrected Distance можно использовать дополнительные опции -gapweight и -ambiguous. Сначала считаются неоткорректированные расстояния D, а затем пересчитываются с учетом множественных замен, используя нижеприведенное уравнение. Параметр b равен 3/4 для нуклеотидных последовательностей и 19/20 для аминокислотных.
distance = -b ln( 1 - (D)/(b) )
Этот метод основан на двух допущениях: замена случается в любом сайте последовательности с одинаковой вероятностью и вероятность замены одного остатка любым другим также одинкова.

Tajima-Nei

Метод Tajima-Nei пригоден только для нуклеотидных последовательностей. В нем используется то же уравнение, что и в методе Jukes-Cantor. Но параметр b варьируется в зависмости от нуклеотидного состава последовательности.
A=1, T=2, C=3, G=4.
b = (1)/(2) (1 - S(i = A,G) (доля[i](2)) + D(2) / h)
h = S(i = A,C) S(k = T,G) ((1)/(2) доля[i,k](2) * доля[i] * доля[k])
distance = -b ln( 1 - (D)/(b) )
Этот метод также основан на двух допущениях: замена может произойти в любом месте последователньости и замена происходит в соответсвии с моделью "равного вклада" , т.е. цена замены на конкретный нуклеотид не зависит от того, какой нуклеотид был ранее в этой позиции.

Kimura Two-Parameter Distance

Этот метод подходит только для нуклеотидных последовательностей и учитиывает тот факт что транзиции возникают чаще трансверсий. Учитывается только разделение на пурины и пиримидины.
P = кол-во_транзиций/ кол-во_позиций
Q = кол-во_трансверсий/ кол-во_позиций
distance = -(1)/(2) ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ]
Этот метод дает лучшее результаты по сравнению с Jukes-Cantor методом, если отношения транзиций к трансверсиям разные.

Tamura Distance

Этот метод применим только к нуклеотидным последовательностям. Он также основан на предположении, что замена может случиться в любом месте последовательности. Принимается в расчет количество транзиций и трансверсий и возможное отклонение содержания G+C более чем на 50% . Гэпы не считаются.
P = кол-во_транзиций/ кол-во_позиций
Q = кол-во_трансверсий/ кол-во_позиций
theta1 = доля G+C в последовательности 1
theta2 = доля G+C в последовательности 2
C = theta1 + theta2 - 2 * theta1 * theta2
distance = -C ln(1 - (P)/(C) - Q) - 0.5(1 - C) ln(1 - 2Q)
Если наблюдается сильное отклонение в соотношении транзиции-трансверсии и G+C содержании, этот метод является наилучшим. Он рекомендован для небольших расстояний, и если посчитанное растояние составляет более 50 замен на 100 оснований, то оно может оказаться неточным.

Jin-Nei Gamma Distance

Это еще один метод применимый только для нуклеотидных последовательностей берет во внимание количество транзиций и трансверсий. Гэпы не учитываются. Метод был разработан для использования в том случае, если количество замен сильно варьируется от сайта к сайту.
L = среднее кол-во замен= кол-во_транзиций+ 2 * кол-во_трансверсий
a = (значение_L)(2) / (изменение_L)
P = кол-во_транзиций/ кол-во_позиций
Q = кол-во_трансверсий/ кол-во_позиций
distance = (1)/(2)a [(1 - 2P - Q)((-1/a)) +(1)/(2) (1 - 2Q)((-1/a)) - (3)/(2) ]
Были использованы методы Uncorrected Distance и Jukes-Cantor Distance, а также Kimura Two-Parameter Distance, т.к. он, в отличие от предыдущих, учитывает транзиции и трансверсии и в то же время не является таким специализированным, как остальные. Полученные результаты сравниваются на листе Comparison. Как можно заметить, значения, полученные методом Uncorrected Distance сильно преуменьшены и практически не коррелируют с "истинными". Результаты методов Kimura и Jukes-Cantor Distance практически друг от друга не отличаются, но сильно расходиться с "истинными" значениями. Однако разность между ними остается примерно постоянной и составляет от 20 до 40.
Таким образом, можно сделать вывод что Uncorrected Distance может использоваться на рассотяниях примерно до 70, но и то это будет очень не точный результат. Jukes-Cantor Distance и Kimura Two-Parameter Distance могут использоваться до 120-150, хотя и с большой погрешностью.