Филогенетические деревья
Из списка протеобактерий было выбрано 8 случайных названий:
Название | Мнемоника |
Bradyrhizobium japonicum | BRAJA |
Rhizobium etli | RHIEC |
Burkholderia cenocepacia | BURCA |
Ralstonia pickettii | RALPJ |
Escherichia coli | ECOLI |
Salmonella typhimurium | SALTY |
Vibrio cholerae | VIBCH |
Vibrio fischeri | VIBFM |
Скобочная формула
((((VIBFM, VIBCH), (ECOLI, SALTY)), (RALPJ, BURCA)), (RHIEC, BRAJA));
Изображение
Нетривиальные ветви
1. {VIDFM, VIBCH} против {ECOLI, SALTY, RALPJ, BURCA, RHIEC, BRAJA}
2. {ECOLI, SALTY} против {VIDFM, VIBCH, RALPJ, BURCA, RHIEC, BRAJA}
3. {RALPJ, BURCA} против {VIDFM, VIBCH, ECOLI, SALTY, RHIEC, BRAJA}
1. {RHIEC, BRAJA} против {VIDFM, VIBCH, ECOLI, SALTY, RALPJ, BURCA}
1. {VIDFM, VIBCH, ECOLI, SALTY} против {RALPJ, BURCA, RHIEC, BRAJA}
Реконструкция и сравнение деревьев Расстояния между последовательностями
Таксоны
С помощью таксономического сервиса NCBI была получена систематика выбранных протеобактерий:
Alphaproteobacteria; Rhizobiales; Bradyrhizobiaceae; Bradyrhizobium; Bradyrhizobium japonicum
Alphaproteobacteria; Rhizobiales; Rhizobiaceae; Rhizobium/Agrobacterium group; Rhizobium; Rhizobium etli
Betaproteobacteria; Burkholderiales; Burkholderiaceae; Burkholderia; Burkholderia cepacia complex; Burkholderia cenocepacia
Betaproteobacteria; Burkholderiales; Burkholderiaceae; Ralstonia; Ralstonia pickettii
Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Escherichia; Escherichia coli
Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Salmonella; Salmonella enterica; Salmonella enterica subsp. enterica; Salmonella typhimurium
Gammaproteobacteria; Vibrionales; Vibrionaceae; Vibrio; Vibrio cholerae
Gammaproteobacteria; Vibrionales; Vibrionaceae; Aliivibrio; Vibrio fischeri
Таким образом, BRAJA и RHIEC принадлежат к классу Альфапротеобактерий и порядку Rhizobiales,
BURCA и RALPJ - к классу Бетапротеобактерий и порядку Burkholderiales,
ECOLI и SALTY - к классу Гаммапротеобактерий, порядку Enterobacteriales и семейству Enterobacteriaceae,
VIBCH и VIBFM - к тому же классу, порядку Vibrionales и семейству Vibrionaceae.
Полученная систематика полностью согласуется с изображением филогенетического дерева (см. выше).
Для дальнейшей работы я выбрал семейство белков - энолаз (мнемоника - ENO). С помощью команды seqret получил из Swiss-Prot последовательности
белков с функцией энолазы из отобранных мной протеобактерий. proteins.fasta
С помощью программы muscle было создано выравнивание отобранных белков:
Желтым цветом отмечены консервативные позиции для Альфапротеобактерий,
голубым - для Бетапротеобактерий, зеленым - для Энтеробактерий, красным - для бактерий порядка Vibrionales.
Ярким примером диагностической позиции может служить позиция 164 выравнивания - в ней во всех Альфапротеобактериях, рассмотренных мной, расположена аминокислота пролин,
во всех Бетапротеобактериях - серин, во всех Гаммапротеобактериях - аспарагин. По таким
позициям можно судить о принадлежности последовательности к определенному таксону.
Реконструкция дерева программой fprotpars
fprotpars -sequence proteins_aligned.fasta -outfile proteins.fprotpars
Программа выдала одно "наиболее бережливое" неукорененное дерево (используя Protein parsimony algorithm).
Скобочная формула: (((((ENO_RHIEC,ENO_BRAJA),(ENO_RALPJ,ENO_BURCA)),(ENO_VIBFM,ENO_VIBCH)),
ENO_SALTY),ENO_ECOLI);
Изображение:
+--ENO_RHIEC
+-----7
! +--ENO_BRAJA
+-----6
! ! +--ENO_RALPJ
! +-----5
+--4 +--ENO_BURCA
! !
! ! +--ENO_VIBFM
+--2 +-----------3
! ! +--ENO_VIBCH
1 !
! +-----------------ENO_SALTY
!
+--------------------ENO_ECOLI
Сравним с приведенным в задании филогенетическим деревом:
В дереве, приведенном fprotpars, топология полностью совпадает с правильной.
Оценка эволюционных расстояний между последовательностями программой fprotdist
fprotdist -sequence proteins_aligned.fasta -outfile prot.fprotdist
Матрица расстояний:
ENO_ECOLI ENO_SALTY ENO_VIBCH ENO_VIBFM ENO_BURCA ENO_RALPJ ENO_BRAJA ENO_RHIEC
ENO_ECOLI 0.000000 0.013573 0.131714 0.138111 0.459059 0.434511 0.526870 0.479487
ENO_SALTY 0.013573 0.000000 0.132140 0.141070 0.460170 0.435582 0.532134 0.484270
ENO_VIBCH 0.131714 0.132140 0.000000 0.120774 0.509829 0.463653 0.573002 0.511371
ENO_VIBFM 0.138111 0.141070 0.120774 0.000000 0.481191 0.444603 0.524064 0.522402
ENO_BURCA 0.459059 0.460170 0.509829 0.481191 0.000000 0.097015 0.478838 0.453309
ENO_RALPJ 0.434511 0.435582 0.463653 0.444603 0.097015 0.000000 0.440661 0.435659
ENO_BRAJA 0.526870 0.532134 0.573002 0.524064 0.478838 0.440661 0.000000 0.295330
ENO_RHIEC 0.479487 0.484270 0.511371 0.522402 0.453309 0.435659 0.295330 0.000000
Проанализируем матрицу на ультраметричность ("из трех расстояний между тремя объектами два всегда равны между собой и не меньше третьего"):
Рассмотрим расстояния между VIBFM, ECOLI и BURCA.
d(VIBFM,ECOLI)=0.138111 < d(VIBFM,BURCA)=0.481191, сравним его с d(BURCA,ECOLI)=0.459059. Эти числа практически равны,
значит матрицу можно считать ультраметричной, и гипотеза о молекулярных часах справедлива.
Проверим на другом примере: d(SALTY,RHIEC)=0.484270, d(SALTY,RALPJ)=0.435582, d(RHIEC,RALPJ)=0.435659. Последние числа практически равны, что подтверждает
ультраметричность матрицы расстояний.
Проанализируем на аддитивность ("из трех сумм d(A,B) + d(C,D); d(A,C) + d(B,D); d(A,D) + d(B,C) две равны между собой и больше третьей"):
Рассмотрим VIBCH, ECOLI, BURCA, RHIEC.
d(VIBCH,ECOLI)+d(BURCA,RHIEC)=0,585023
d(VIBCH,BURCA)+d(ECOLI,RHIEC)=0,989316
d(VIBCH,RHIEC)+d(ECOLI,BURCA)=0,97043
0,97043 примерно равно 0,989316 , что удовлетворяет свойству аддитивности!
Реконструкции дерева программой fneighbor
Алгоритм UPGMA:
fneighbor -datafile prot.fprotdist -outfile protu.fneighbor -outtreefile protu.fneighbor.tree -treetype u
Алгоритм Neighbor-Joining:
fneighbor -datafile prot.fprotdist -outfile protnj.fneighbor -outtreefile protnj.fneighbor.tree
Результаты:
UPGMA:
(((ENO_ECOLI:0.00679,ENO_SALTY:0.00679):0.06109,(ENO_VIBCH:0.06039,
ENO_VIBFM:0.06039):0.00749):0.17719,((ENO_BURCA:0.04851,
ENO_RALPJ:0.04851):0.17755,(ENO_BRAJA:0.14766,ENO_RHIEC:0.14766):0.07839):0.01901);
+ENO_ECOLI
+--1
! +ENO_SALTY
+----------4
! ! +---ENO_VIBCH
! +-3
! +---ENO_VIBFM
--7
! +--ENO_BURCA
! +----------2
! ! +--ENO_RALPJ
+-6
! +--------ENO_BRAJA
+----5
+--------ENO_RHIEC
Neighbor-Joining:
(ENO_SALTY:0.00786,((ENO_VIBCH:0.06382,ENO_VIBFM:0.05695):0.02112,
((ENO_BURCA:0.06415,ENO_RALPJ:0.03286):0.14849,(ENO_BRAJA:0.16505,
ENO_RHIEC:0.13028):0.10746):0.19620):0.04747,ENO_ECOLI:0.00571);
+ENO_SALTY
!
! +---ENO_VIBCH
! +-5
! ! +---ENO_VIBFM
! !
4--6 +--ENO_BURCA
! ! +--------1
! ! ! +-ENO_RALPJ
! +-----------3
! ! +---------ENO_BRAJA
! +-----2
! +-------ENO_RHIEC
!
+ENO_ECOLI
Топологии дерева, выданные алгоритмами UPGMA и N-J совпадают с правильной.
Сервис TreeTop
Результаты работы и впечатления:
Первый положительный момент - E-mail пришел практически моментально. Второй - сервис совмещает в себе
функции всех команд putty, используемых мной во время выполнения задания. Третий - картинка! (отпадает необходимость
пользоваться TreeDyn или Paint'ом).
Дерево на картинке практически совпадает с правильным, но присутствует та же ошибка что и у алгоритма UPGMA (Бета- вместе с Альфа-, хотя должны быть на одной ветви с Гамма-).
TOPOLOGICAL ALGORITHM выдал более удручающие результаты, ошибок заметно больше.
Матрица расстояний заметно отличается от полученной мной в Задании 6. Например d(ECOLI,SALTY)=0,04 вместо 0.013573! Какая из них наиболее верная - судить не могу.
Единственный замеченный недостаток - сервис не поддерживает стандартный fasta-формат выравнивания.
В целом, понравилась быстрота и удобство работы с сервисом и выдача результатов (2 алгоритма, картинка, все на одной странице + присылается на E-mail).
В дальнейшем, при выполнении сходной задачи, предпочту этот сервис работе с Linux.
Назад
|