Реконструкция и сравнение деревьев.
Расстояния между последовательностями

Таксономия

В прошлой работе я выбрал несколько бактерий, их таксономия (по таксономическому сервису NCBI):

  • Burkholderia cenocepacia (BURCA)
    root; cellular organisms; Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Burkholderiaceae; Burkholderia; Burkholderia cepacia complex
  • Ralstonia pickettii (RALPJ)
    root; cellular organisms; Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales; Burkholderiaceae; Ralstonia
  • Neisseria meningitidis (NEIMA)
    root; cellular organisms; Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae; Neisseria
  • Enterobacter sp. 638 (ENT38)
    root; cellular organisms; Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Enterobacter
  • Escherichia coli (ECOLI)
    root; cellular organisms; Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Escherichia
  • Erwinia carotovora (ERWCT)
    root; cellular organisms; Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Pectobacterium
  • Pseudomonas aeruginosa (PSEAE)
    root; cellular organisms; Bacteria; Proteobacteria; Gammaproteobacteria; Pseudomonadales; Pseudomonadaceae; Pseudomonas; Pseudomonas aeruginosa group
Дерево отобранных бактерий:

Все организмы принадлежат одному типу:
root; cellular organisms; Bacteria; Proteobacteria

Следующие ветви выделяют таксоны:

  • {NEIMA, BURCA, RALPJ} против {PSEAE, ERWCT, ENT38, ECOLI}
    Betaproteobacteria и Gammaproteobacteria
  • {BURCA, RALPJ} против {PSEAE, ERWCT, ENT38, ECOLI, NEIMA}
    Burkholderiales; Burkholderiaceae
  • {ERWCT, ENT38, ECOLI} против {NEIMA, BURCA, RALPJ, PSEAE}
    Enterobacteriales; Enterobacteriaceae

Составление деревьев по последовательностям

Для составления филогенетических деревьев отобранных бактерий я использовал последовательности семейства белков Энолаз. Выравнивание производил с помощью программы muscle из пакета EMBOSS.

Программа fprotpars

С помощью данной программы я получил филогенетическое дерево по методу максимальной бережливости.

Скобочная формула:

((((ECOLI,(ENT38,ERWCT)),PSEAE),(RALPJ,BURCA)),NEIMA);
Изображение:

Сравнение с правильным деревом:

Дерево, составленное программой fprotpars, очень похоже на правильное. Имеется лишь одно отличие. В нём есть ветвь:
{ERWCT, ENT38} против {NEIMA, BURCA, RALPJ, PSEAE, ECOLI}
В отличие от которой в правильном дереве:
{ECOLI, ENT38} против {ERWCT, NEIMA, BURCA, RALPJ, PSEAE}

Программа fprotdist

С помощью данной программы я получил матрицу расстояний:

    7
NEIMA       0.000000  0.365469  0.318335  0.453726  0.505785  0.507294  0.499523
BURCA       0.365469  0.000000  0.097015  0.418204  0.466193  0.469612  0.459059
RALPJ       0.318335  0.097015  0.000000  0.362485  0.431272  0.439685  0.434511
PSEAE       0.453726  0.418204  0.362485  0.000000  0.306601  0.299109  0.280027
ERWCT       0.505785  0.466193  0.431272  0.306601  0.000000  0.063258  0.056151
ENT38       0.507294  0.469612  0.439685  0.299109  0.063258  0.000000  0.048491
ECOLI       0.499523  0.459059  0.434511  0.280027  0.056151  0.048491  0.000000
Проверка этого пространства на ультраметричность:

Имеются элементы, для которых довольно точно выполняется аксиома ультраметричности, например,
d(ERWCT,NEIMA) = d(ENT38,NEIMA) и d(ENT38,NEIMA) > d(ENT38,ERWCT),
отклонение от ультраметричности всего на 0.0015.
Но есть и менее удачные варианты, как например,
d(BURCA,PSEAE) ~ d(RALPJ,PSEAE) и d(BURCA,PSEAE) > d(BURCA,RALPJ),
отклонение уже около 0.045 (одно из наибольших).

Проверка этого пространства на аддитивность:

Возьмём любые четыре организма и составим попарные суммы расстояний между ними: NEIMA, BURCA, RALPJ, PSEAE.

a = d(NEIMA,BURCA) + d(PSEAE,RALPJ) = 0.727954
b = d(NEIMA,PSEAE) + d(BURCA,RALPJ) = 0.550741
c = d(PSEAE,BURCA) + d(NEIMA,RALPJ) = 0.736539
Если принять a ~ c, то свойство аддитивности выполняется с отклонением 0.008585. Это отклонение, вероятно, можно считать небольшим.

Программа fneighbor

Применяя данную программу, подавая ей на вход файл программы fprotdist, я получил 2 реконструкции дерева с использованием алгоритмов UPGMA и Neighbor-Joining.

UPGMA:

Neighbor-Joining:

Сравнение всех деревьев:

По изображениям мы видим, что правильному дереву эквивалентна (все ветви одинаковые) только реконструкция, созданнная с помощью алгоритма UPGMA. И это несмотря на то, что этот алгоритм предпологает гипотезу молекулярных часов (матрица расстояний не слишком далека от ультраметрической). Вероятно, отклонение около 0.045 считается приемлимым для использования этой гипотезы.
Деревья, созданные по методу максимальной бережливости (fprotpars) и по алгоритму Neighbor-Joining, эквивалентны. Они похожи, но отличаются от правильного дерева.
Если посмотреть два последних дерева, то можно сравнить длины ветвей. Так как эти реконструкции опирались на одну и ту же матрицу, то и длины ветвей получилось сходными. Но в дереве, созданном по алгоритму UPGMA, длины, вероятно, немного искажены в целях приближения матрицы расстояний к ультраметрическому пространству.



© Айдарханов Руслан 2008