Филогенетические деревья

Из списка протеобактерий было выбрано 8 случайных названий:

НазваниеМнемоника
Bradyrhizobium japonicumBRAJA
Rhizobium etliRHIEC
Burkholderia cenocepaciaBURCA
Ralstonia pickettiiRALPJ
Escherichia coliECOLI
Salmonella typhimuriumSALTY
Vibrio choleraeVIBCH
Vibrio fischeriVIBFM

Скобочная формула

((((VIBFM, VIBCH), (ECOLI, SALTY)), (RALPJ, BURCA)), (RHIEC, BRAJA));

Изображение


Нетривиальные ветви

1. {VIDFM, VIBCH} против {ECOLI, SALTY, RALPJ, BURCA, RHIEC, BRAJA}
2. {ECOLI, SALTY} против {VIDFM, VIBCH, RALPJ, BURCA, RHIEC, BRAJA}
3. {RALPJ, BURCA} против {VIDFM, VIBCH, ECOLI, SALTY, RHIEC, BRAJA}
1. {RHIEC, BRAJA} против {VIDFM, VIBCH, ECOLI, SALTY, RALPJ, BURCA}
1. {VIDFM, VIBCH, ECOLI, SALTY} против {RALPJ, BURCA, RHIEC, BRAJA}

Реконструкция и сравнение деревьев
Расстояния между последовательностями

Таксоны

С помощью таксономического сервиса NCBI была получена систематика выбранных протеобактерий:

Alphaproteobacteria; Rhizobiales; Bradyrhizobiaceae; Bradyrhizobium; Bradyrhizobium japonicum
Alphaproteobacteria; Rhizobiales; Rhizobiaceae; Rhizobium/Agrobacterium group; Rhizobium; Rhizobium etli
Betaproteobacteria; Burkholderiales; Burkholderiaceae; Burkholderia; Burkholderia cepacia complex; Burkholderia cenocepacia
Betaproteobacteria; Burkholderiales; Burkholderiaceae; Ralstonia; Ralstonia pickettii
Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Escherichia; Escherichia coli
Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella; Salmonella enterica; Salmonella enterica subsp. enterica; Salmonella typhimurium
Gammaproteobacteria; Vibrionales; Vibrionaceae; Vibrio; Vibrio cholerae
Gammaproteobacteria; Vibrionales; Vibrionaceae; Aliivibrio; Vibrio fischeri

Таким образом, BRAJA и RHIEC принадлежат к классу Альфапротеобактерий и порядку Rhizobiales,
BURCA и RALPJ - к классу Бетапротеобактерий и порядку Burkholderiales,
ECOLI и SALTY - к классу Гаммапротеобактерий, порядку Enterobacteriales и семейству Enterobacteriaceae,
VIBCH и VIBFM - к тому же классу, порядку Vibrionales и семейству Vibrionaceae.

Полученная систематика полностью согласуется с изображением филогенетического дерева (см. выше).


Для дальнейшей работы я выбрал семейство белков - энолаз (мнемоника - ENO). С помощью команды seqret получил из Swiss-Prot последовательности белков с функцией энолазы из отобранных мной протеобактерий. proteins.fasta

С помощью программы muscle было создано выравнивание отобранных белков:


Желтым цветом отмечены консервативные позиции для Альфапротеобактерий,
голубым - для Бетапротеобактерий, зеленым - для Энтеробактерий, красным - для бактерий порядка Vibrionales.

Ярким примером диагностической позиции может служить позиция 164 выравнивания - в ней во всех Альфапротеобактериях, рассмотренных мной, расположена аминокислота пролин, во всех Бетапротеобактериях - серин, во всех Гаммапротеобактериях - аспарагин. По таким позициям можно судить о принадлежности последовательности к определенному таксону.

Реконструкция дерева программой fprotpars

fprotpars -sequence proteins_aligned.fasta -outfile proteins.fprotpars

Программа выдала одно "наиболее бережливое" неукорененное дерево (используя Protein parsimony algorithm).

Скобочная формула:
(((((ENO_RHIEC,ENO_BRAJA),(ENO_RALPJ,ENO_BURCA)),(ENO_VIBFM,ENO_VIBCH)), ENO_SALTY),ENO_ECOLI);

Изображение:
                    +--ENO_RHIEC 
              +-----7  
              !     +--ENO_BRAJA 
        +-----6  
        !     !     +--ENO_RALPJ 
        !     +-----5  
     +--4           +--ENO_BURCA 
     !  !  
     !  !           +--ENO_VIBFM 
  +--2  +-----------3  
  !  !              +--ENO_VIBCH 
  1  !  
  !  +-----------------ENO_SALTY 
  !  
  +--------------------ENO_ECOLI 
Сравним с приведенным в задании филогенетическим деревом:

В дереве, приведенном fprotpars, топология полностью совпадает с правильной.

Оценка эволюционных расстояний между последовательностями программой fprotdist

fprotdist -sequence proteins_aligned.fasta -outfile prot.fprotdist

Матрица расстояний:
            ENO_ECOLI ENO_SALTY ENO_VIBCH ENO_VIBFM ENO_BURCA ENO_RALPJ ENO_BRAJA ENO_RHIEC
ENO_ECOLI   0.000000  0.013573  0.131714  0.138111  0.459059  0.434511  0.526870  0.479487
ENO_SALTY   0.013573  0.000000  0.132140  0.141070  0.460170  0.435582  0.532134  0.484270
ENO_VIBCH   0.131714  0.132140  0.000000  0.120774  0.509829  0.463653  0.573002  0.511371
ENO_VIBFM   0.138111  0.141070  0.120774  0.000000  0.481191  0.444603  0.524064  0.522402
ENO_BURCA   0.459059  0.460170  0.509829  0.481191  0.000000  0.097015  0.478838  0.453309
ENO_RALPJ   0.434511  0.435582  0.463653  0.444603  0.097015  0.000000  0.440661  0.435659
ENO_BRAJA   0.526870  0.532134  0.573002  0.524064  0.478838  0.440661  0.000000  0.295330
ENO_RHIEC   0.479487  0.484270  0.511371  0.522402  0.453309  0.435659  0.295330  0.000000
Проанализируем матрицу на ультраметричность ("из трех расстояний между тремя объектами два всегда равны между собой и не меньше третьего"):
Рассмотрим расстояния между VIBFM, ECOLI и BURCA.
d(VIBFM,ECOLI)=0.138111 < d(VIBFM,BURCA)=0.481191, сравним его с d(BURCA,ECOLI)=0.459059. Эти числа практически равны, значит матрицу можно считать ультраметричной, и гипотеза о молекулярных часах справедлива.
Проверим на другом примере: d(SALTY,RHIEC)=0.484270, d(SALTY,RALPJ)=0.435582, d(RHIEC,RALPJ)=0.435659. Последние числа практически равны, что подтверждает ультраметричность матрицы расстояний.

Проанализируем на аддитивность ("из трех сумм d(A,B) + d(C,D); d(A,C) + d(B,D); d(A,D) + d(B,C) две равны между собой и больше третьей"):
Рассмотрим VIBCH, ECOLI, BURCA, RHIEC.
d(VIBCH,ECOLI)+d(BURCA,RHIEC)=0,585023
d(VIBCH,BURCA)+d(ECOLI,RHIEC)=0,989316
d(VIBCH,RHIEC)+d(ECOLI,BURCA)=0,97043
0,97043 примерно равно 0,989316 , что удовлетворяет свойству аддитивности!

Реконструкции дерева программой fneighbor

Алгоритм UPGMA:
fneighbor -datafile prot.fprotdist -outfile protu.fneighbor -outtreefile protu.fneighbor.tree -treetype u

Алгоритм Neighbor-Joining:
fneighbor -datafile prot.fprotdist -outfile protnj.fneighbor -outtreefile protnj.fneighbor.tree

Результаты:

UPGMA:
(((ENO_ECOLI:0.00679,ENO_SALTY:0.00679):0.06109,(ENO_VIBCH:0.06039,
ENO_VIBFM:0.06039):0.00749):0.17719,((ENO_BURCA:0.04851,
ENO_RALPJ:0.04851):0.17755,(ENO_BRAJA:0.14766,ENO_RHIEC:0.14766):0.07839):0.01901);

                +ENO_ECOLI 
             +--1 
             !  +ENO_SALTY 
  +----------4 
  !          ! +---ENO_VIBCH 
  !          +-3 
  !            +---ENO_VIBFM 
--7 
  !            +--ENO_BURCA 
  ! +----------2 
  ! !          +--ENO_RALPJ 
  +-6 
    !    +--------ENO_BRAJA 
    +----5 
         +--------ENO_RHIEC 

Neighbor-Joining:
(ENO_SALTY:0.00786,((ENO_VIBCH:0.06382,ENO_VIBFM:0.05695):0.02112,
((ENO_BURCA:0.06415,ENO_RALPJ:0.03286):0.14849,(ENO_BRAJA:0.16505,
ENO_RHIEC:0.13028):0.10746):0.19620):0.04747,ENO_ECOLI:0.00571);

+ENO_SALTY 
  ! 
  !    +---ENO_VIBCH 
  !  +-5 
  !  ! +---ENO_VIBFM 
  !  ! 
  4--6                    +--ENO_BURCA 
  !  !           +--------1 
  !  !           !        +-ENO_RALPJ 
  !  +-----------3 
  !              !     +---------ENO_BRAJA 
  !              +-----2 
  !                    +-------ENO_RHIEC 
  ! 
  +ENO_ECOLI 
Топологии дерева, выданные алгоритмами UPGMA и N-J совпадают с правильной.

Сервис TreeTop

Результаты работы и впечатления:
Первый положительный момент - E-mail пришел практически моментально. Второй - сервис совмещает в себе функции всех команд putty, используемых мной во время выполнения задания. Третий - картинка! (отпадает необходимость пользоваться TreeDyn или Paint'ом).



Дерево на картинке практически совпадает с правильным, но присутствует та же ошибка что и у алгоритма UPGMA (Бета- вместе с Альфа-, хотя должны быть на одной ветви с Гамма-).
TOPOLOGICAL ALGORITHM выдал более удручающие результаты, ошибок заметно больше.

Матрица расстояний заметно отличается от полученной мной в Задании 6. Например d(ECOLI,SALTY)=0,04 вместо 0.013573! Какая из них наиболее верная - судить не могу.

Единственный замеченный недостаток - сервис не поддерживает стандартный fasta-формат выравнивания.

В целом, понравилась быстрота и удобство работы с сервисом и выдача результатов (2 алгоритма, картинка, все на одной странице + присылается на E-mail).
В дальнейшем, при выполнении сходной задачи, предпочту этот сервис работе с Linux.

Назад