На главную страницу
На страницу четвёртого семестра

Филогенетические деревья

Занятие 1

Отобранные бактерии

НазваниеМнемоника
Finegoldia magnaFINM2
Thermoanaerobacter tengcongensisTHETN
Lactobacillus delbrueckiiLACDA
Lactobacillus acidophilusLACAC
Pediococcus pentosaceusPEDPA
Bacillus subtilisBACSU
Listeria monocytogenesLISMO
Staphylococcus epidermidisSTAES

Скобочная формула дерева

((FINM2,THETN),(((LACDA,LACAC),PEDPA),((BACSU,LISMO),STAES)));
  

Изображение дерева


Ветви дерева

Дерево содержит пять нетривиальных ветвей:
1) {FINM2, THETN} против {LACDA, LACAC, PEDPA, BACSU, LISMO, STAES}
2) {LACDA, LACAC} против {FINM2, THETN, PEDPA, BACSU, LISMO, STAES}
3) {LACDA, LACAC, PEDPA} против {FINM2, THETN, BACSU, LISMO, STAES}
4) {BACSU, LISMO} против {FINM2, THETN, PEDPA, LACDA, LACAC, STAES}
5) {BACSU, LISMO, STAES} против {FINM2, THETN, PEDPA, LACDA, LACAC}

Занятие 2

1. Таксономический сервис NCBI
При помощи таксономического сервиса NCBI были установлены таксоны, к котроым принадлежат выбранные в предыдущем задании бактерии:
Мнемоника Таксономическое положение
FINM2 Clostridia; Clostridiales; Clostridiales incertae sedis; Clostridiales Family XI. Incertae Sedis; Finegoldia
THETN Clostridia; Thermoanaerobacterales; Thermoanaerobacteraceae; Caldanaerobacter; Caldanaerobacter subterraneus
LACDA Bacilli; Lactobacillales; Lactobacillaceae; Lactobacillus
LACAC Bacilli; Lactobacillales; Lactobacillaceae; Lactobacillus
PEDPA Bacilli; Lactobacillales; Lactobacillaceae; Pediococcus
BACSU Bacilli; Bacillales; Bacillaceae; Bacillus; Bacillus subtilis group
LISMO Bacilli; Bacillales; Listeriaceae; Listeria
STAES Bacilli; Bacillales; Staphylococcaceae; Staphylococcus

Ветвь выделяет классы Clostridia и Bacilli соответственно (THETN;FINM2) и (LACDA;LACAC;PEDPA;BACSU;LISMO;STAES)
(LACDA;LACAC)- род Lactobacillus
(LACDA;LACAC;PEDPA)- порядок Lactobacillales
(BACSU;LISMO;STAES)- порядок Bacillales
(LACDA;LACAC;PEDPA;BACSU;LISMO;STAES)- класс Bacilli
2. Выбрано семейство белков EFTS (Фактор элонгации трансляции Ts). Получены последовательности белков с данной функцией из отобранных бактерий.
3. Создано выравнивание отобранных белков программой muscle bel_al.fasta.
4. Выравнивание импортировано в GeneDoc.

ЗАДАНИЕ НЕ ГОТОВО
5. Реконструкция дерева с помощью программы fprotpars.
Программа построила только одно дерево, его скобочная формула: ((((((EFTS_STAES,EFTS_BACSU),EFTS_LISMO),EFTS_PEDPA),(EFTS_FINM2, EFTS_THETN)),EFTS_LACDA),EFTS_LACAC);


Оно отличается от того, что было построено на первом занятии:
Ветвь FINM2 & THETN против всех- сохранилась
Ветвь LACDA & LACAC против всех- сохранилась
Ветвь BACSU & LISMO против всех исчезла, появилась- STAES & BACSU против всех
Ветвь LACDA & LACAC & PEDPA против всех исчезла, появилась STAES & BACSU & LISMO & PEDPA против всех.
Ветвь STAES & BACSU & LISMO против всех сохранилась.
Дерево не укорененно, поэтому, вобще говоря, можно рассматривать и другие варианты ветвления, сравнение производилось в предположении, что первое разбиение LACDA&LACAC против всех, такое дерево максимально было бы приближено к исходному.
6. Оценка эволюционных расстояний между последовательностями программой fprotdist.
Приведена матрица расстояний:

   
            LACAC     LACDA     THETN     FINM2     PEDPA     LISMO     BACSU     STAES
EFTS_LACAC  0.000000  0.386283  0.776085  0.781586  0.726206  0.800296  0.827198  0.722013
EFTS_LACDA  0.386283  0.000000  0.786725  0.809905  0.731823  0.771959  0.743900  0.747216
EFTS_THETN  0.776085  0.786725  0.000000  0.453178  0.736268  0.652888  0.669772  0.667910
EFTS_FINM2  0.781586  0.809905  0.453178  0.000000  0.681274  0.605825  0.626252  0.604511
EFTS_PEDPA  0.726206  0.731823  0.736268  0.681274  0.000000  0.565087  0.622639  0.551479
EFTS_LISMO  0.800296  0.771959  0.652888  0.605825  0.565087  0.000000  0.478520  0.494975
EFTS_BACSU  0.827198  0.743900  0.669772  0.626252  0.622639  0.478520  0.000000  0.429380
EFTS_STAES  0.722013  0.747216  0.667910  0.604511  0.551479  0.494975  0.429380  0.000000

Ультраметричность. Из трёх расстояний между тремя объектами два всегда равны между собой и не меньше третьего.

По условию ультраметричности должно выполняться d (A,B)<=max(d (A,C), d (B,C)), посмотрим насколько отклоняются от аксиомы расстояния в полученной матрице.
1)d(STAES,BACSU)=0.429380
2)d(STAES,LACAC)=0.722013
3)d(BACSU,LACAC)=0.827198
Приблизительно выполняется: (2)-(3)=0.827198-0.722013=0,105185 и (2)>(1),(3)>(1).
Погрешность 0.1 относительно расстояний 0.7 и 0.8, разница с первым 0.3 и 0.4 соответсственно.

Аддитивность. Если есть четыре последовательности A,B,C,D, то из трёх сумм
1) d(A,B) + d(C,D)
2) d(A,C) + d(B,D)
3) d(A,D) + d(B,C)
две равны между собой и больше третьей.

Для нашей матрицы и последоательностей STAES,BACSU,LACAC,THETN:
1) d(STAES,BACSU) + d(LACAC,THETN)=0.429380+0.776085=1.205465
2) d(STAES,LACAC) + d(BACSU,THETN)=0.722013+0.669772=1.391785
3) d(STAES,THETN) + d(BACSU,LACAC)=0.667910+0.827198=1.495108
Приблизительно выполняется:(3)-(2)=1.495108-1.391785=0.103323 и (2)~=(3)>(1)
Погрешность в 0.1 при суммах 1.4 и 1.5, и разнице с первым 0.2 и 0.3 соответственно. Довольно много.
7. Сравнение деревьев полученных с помощью программы fneighbor (алгоритмы UPGMA и Neighbor-Joining),с результатом fprotpars и с правильным деревом.

Итак, у нас есть четыре дерева. Посмотрим сначала на те, что получены программой fneighbor. В целом, при применении обоих алгоритмов результат тот же, единственное различие в том, что в Neighbor-Joining остаётся неразрешённым вопрос о положении ветви LACDA-LACAC, дерево неукорененно.

Дерево fprotpars не учитывает длины ветвей. Оно аналогично Neighbor-Joining.

В результате имеем следующее, деревья полученные с помощью алгоритмов, принимающих на вход матрицу расстояний(пр.fneighbor) и алгоритм, сравнивающий аминокислотные последовательности, с осуществлением метода максимальной экономии (fprotpars), сходны. И в данном случае имеют сходные расхождения с правильным деревом. см. задание 5.

Занятие 3

1. Укоренение в среднюю точку.
В предыдущем занятии было получено дерево по алгоритму Neighbor-Joining. Укореним его.

Дерево, полученное методом максимальной экономии нельзя укоренить,так как fprotpars не дает длины ветвей, необходимые для работы алгоритмов укоренения, не имеет смысла укоренять дерево UPGMA, так как этот алгоритм уже выдает укорененное дерево.

Как видим, укоренение в среднюю точку произошло по ветви LACDA&LACAC против всех. Мы получили дерево аналогичное, полученому по UPGMA, укоренение не подтверждается исходным правильным деревом,в нём укоренение FINM2 и THETN против всех. Существующие различия уже описывались ранее.

2. Использование внешней группы.
К последовательностям белков семейства EFTS наших бактерий была добавлена последовательность того же семейства из ECOLI. Сначала было построено неукоренённое дерево, с помощью программы fprotpars , затем осуществлено укоренение, в качестве внешней группы использовалась последовательность из ECOLI. На изображении внешняя группа удалена.

Укоренение в ветвь FINM2&THETN против всех, как в правильном дереве.
2. Бутстрэп.
Для бутстрэп анализа из исходного выравнивания белков сначало было получено 100 бутстрэп-реплик программой fseqboot, по ним было постоено сто деревьев (fprotpars). Единое дерево по принципу "расширенного большинства" получено на выходе прграммы fconsense.

 
  +-------------------------------EFTS PEDPA
  |
  |                       +-------EFTS LACAC
  |               +--100.0-|
  |               |       +-------EFTS LACDA
  |       +--42.5-|
  |       |       |       +-------EFTS THETN
  |       |       +--100.0-|
  +-------|               +-------EFTS FINM2
          |
          |       +---------------EFTS LISMO
          +--69.8-|
                  |       +-------EFTS BACSU
                  +--72.0-|
                          +-------EFTS STAES


Дерево такое же, какое было получено программой fprotpars на исходном выравнивании. Лучше оно может быть тем,что в данном представлении, мы видим ещё и вероятности ветвей.

В выходном файле есть ветви не получившие большинства. Обе ветви, которые есть в правильном дереве, но отсутсвуют в полученном, имеют поддержку.(BACSU&LISMO против всех - 19.33 и LACDA&LACAC&PEDPA против всех - 33.00 )
bel_al.fconsense

Занятие 4

Построение дерева по нуклеотидным последовательностям.
Построение и анализ дерева, содержащего паралоги.

Отчёт на отдельном листе
© Zhuravleva Katya, 2009