Филогенетическое дерево и его реконструкция

Дерево, описывающее модель судьбы исследуемого гена описана в виде скобочной формулы:

(((((А:43,В:43):20,С:63):20,D:83):7,Е:90):30,F:120);

Описание ветвей дерева через разбиения листьев:

      A B C D E F
      . . * * * *
      . . . * * *
      . . . . * *

Создали специальную директорию содержащую последовательность гена (файл my.fasta содержит послдовательность моего белка, длина 732 нуклеотида) а так же мутированные последовательности, мутированные последовательности создавались при помощи программы msbar пакета EMBOSS, при этом, исходя из того что последовательность состоит из 732 нуклеотидов, можем давать программе количество мутаций (в задании было сказано, что длина ветвей равна числу мутаций на 100 нуклеотидов).
Формула для пересчёта расстояний в число мутаций в гене соответственно выглядит так - (длина гена*(число мутаций на 100 нуклеотидов)/100). Однако надо заметить, что программа делает заданное количество замен, причем любой нуклеотид заменяется на любой из четырех, то есть понятно что в 25 процента случаев заменой это являться не будет, поэтому мы домножим на коэффициент 4/3 (замен то произойдет соответственно в 4/3 раз больше). Итого формула будет выглядеть так - 9.76*(число мутаций на 100 нуклеотидов)

Ниже приведен скрипт, результатам которого являются мутантные последовательности:
```
msbar my.fasta ABCDE.fasta -point 4 -count 293 -auto
msbar my.fasta F.fasta -point 4 -count 1171 -auto
msbar ABCDE.fasta ABCD.fasta -point 4 -count 68 -auto
msbar ABCDE.fasta E.fasta -point 4 -count 878 -auto
msbar ABCD.fasta ABC.fasta -point 4 -count 195 -auto
msbar ABCD.fasta D.fasta -point 4 -count 810 -auto
msbar ABC.fasta AB.fasta -point 4 -count 195 -auto
msbar ABC.fasta C.fasta -point 4 -count 615 -auto
msbar AB.fasta B.fasta -point 4 -count 420 -auto
msbar AB.fasta A.fasta -point 4 -count 420 -auto
cat A.fasta >> mut1.fasta  
cat B.fasta >> mut1.fasta  
cat C.fasta >> mut1.fasta  
cat D.fasta >> mut1.fasta  
cat E.fasta >> mut1.fasta  
cat F.fasta >> mut1.fasta
```
В скрипте также сразу записали все последовательности в 1 файл.Данный файл можно рассматривать как множественное выравнивание, потому что все мутации происходили за счёт замен.
Заметим так же такой интересный факт, который бросается в глаза - расстояния до A,B,C,D,E,F одинаковы, и равны 120, то есть, развитие происходило с одинаковыми скоростями.
Теперь по данному множественному выравниванию мы можем построить филлогенетические деревья ( использовалось три способа):
- Дерево по алгоритму максимального правдоподобия.
```
fdnaml mut1.fasta -ttratio 0.5 -auto

Параметр  -ttratio равен 0.5, поскольку программа msbar делает все замены с
одинаковой вероятностью и отношение числа транзиций к числу трансверсий равно 1/2. 

 +----------B         
  |  
  |            +---------------------------------------------F         
  |       +----4  
  |       |    |  +---------------------------------E         
  1-------2    +--3  
  |       |       +--------------------D         
  |       |  
  |       +------------------C         
  |  
  +-------------A 
```
- ```
Дерево по алгоритму UPGMA (построено по матрице эволюционных расстояний)

fneighbor mut1.fdnadist -treetype u -auto -outfile UPGMA.fneighbor

                           +-----------A         
                    +------1 
                +---2      +-----------B         
                !   ! 
         +------3   +------------------C         
         !      ! 
  +------4      +---------------------D         
  !      ! 
--5      +----------------------------E         
  ! 
  +-----------------------------------F         
```
- ```
 Дерево по алгоритму ближайших соседей (построено по матрице эволюционных расстояний).

fneighbor mut1.fdnadist -auto -outfile NJ.fneighbor

  +--------B         
  ! 
  !        +----------------C         
  1--------2 
  !        !     +----------------------------------E         
  !        +-----3 
  !              ! +-------------------D         
  !              +-4 
  !                +-------------------------------------------F         
  ! 
  +--------------A         
```
Сравнение реконструированных деревьев между собой и с правильным деревом

Для сравнение предложено было сделать таблицу, в левой части которой приведены (в виде точек и звёздочек) все ветви, встреченные во всех деревьях (исходном и трёх реконструкциях), а в правой добавлены четыре столбца, соостветствующие четырём деревьям. Знаком + отмечено, в каких деревьях встретилась каждая из ветвей.

A B C D E F правильное дерево 1ое 2ое 3е

. . * * * * + + + +

. . . * * * + + + +

. . . . * * + - + -

. . . * . * - - - +

. . . * * . - + - -

Результаты довольно хорошие, и даже ошибка в одной ветви при использовании алгоритма ближайших соседей легко объяснима, посмотрим на реальное дерево (данное изначально), как мы видим расстояние между узлами расхождения ветвей к D и к E равно 7, совсем немного - неудивительно что ошибка была допущениа именно в этом месте (расхождение с точки зрения программы не вполне очевидно). Деревья близки по топологии. Посмотрим теперь на дерево, построенное при помощи алгоритма UPGMA, который строит дерево укорененное ультраметрическое ( расстояния от корня до листа одинаковы, как было и в нашем случае!), мы видим, что и корень расположен на своем месте. То есть результат очень хороший для данного случая (скорее всего как раз повлияло то, что расстояния на правильном дереве были одинаковы). Относительно первого дерева, построенного по алгоритму максимального правдоподобия, можно сказать следущее - мы опять замечаем стремление ветки F сместиться ближе к A,B,C, она примыкает к D.
Бутстреп-анализ множественного выравнивания и построение консенсуного дерева:

fseqboot mut1.fasta -auto /получили 100 реплик

fdnaml mut1.fasta -ttratio 0.5 -auto /построение деревьев по алгоритму максимального сходства

fconsense mut1.treefile /вывод результатов

Результаты бутстреп-анализа:

Ниже представлена вырезка из резльтатов анализа:
```
Species in order: 
  1. C
  2. F
  3. D
  4. E
  5. B
  6. A
Sets included in the consensus tree
Set (species in order)     How many times out of  100.00
....**                     83.00
.***..                     51.00
.**...                     45.00
Sets NOT included in consensus tree:
Set (species in order)     How many times out of  100.00

.*.*..                     22.00

И полученное при этом дерево:

                +-------------E
         +-51.0-|
         |      |      +------F
         |      +-45.0-|
  +------|             +------D
  |      |
  |      |             +------A
  |      +--------83.0-|
  |                    +------B
  |
  +---------------------------C
```
Получили довольно интересный результат - ветка E все так же "не спокойна" и стремится к A,B,C. Это вызвано, по-видимому, тем что у нас есть короткие (а потому несовсем достоверные) ветки, мы видим после надписи "Sets NOT included in consensus tree" возможные альтернативные ветви, которые могли возникнуть с несколько меньшими вероятностями, обратим внимание на то, что разделение на AB и CDEF происходит в большом количестве случаев (83 из 100), разделение на ABC и DEF, происходит уже с меньшей вероятностью (51 процент), ветвь FD, которая не встречалась в реальном дереве существует в 45 из 100 случаев, смотрим далее - ниже приведены альтернативные варианты размещения ветвей, и наш вариант расположения, что существует ветвь FE, такая ветвь существует в 22 случаях (что конечно тоже не мало, но можно было ожидать и лучшего).
Создание изображения исходного дерева программой fdrawtree. Поместили скобочную структуру (которая была дана в самом начале денного занятия) в отдельный файл, подали этот файл на вход программе fdrawtree, а затем перевели в более удобный формат. Ниже приведено собственно изображение:

Мы видим, что данное изображение вполне соответствует нашему собственноручному построению и скобочной структуре.

A	B	C	D	E	F	правильное дерево	1ое	2ое	3е
.	.	*	*	*	*	+	+	+	+
.	.	.	*	*	*	+	+	+	+
.	.	.	.	*	*	+	-	+	-
.	.	.	*	.	*	-	-	-	+
.	.	.	*	*	.	-	+	-	-

Филогенетическое дерево и его реконструкция

Сравнение реконструированных деревьев между собой и с правильным деревом