Учебный сайт
Главная Семестры Проекты Обо мне

Построение дерева по нуклеотидным последовательностям

Из записей EMBL, соответствующих геномам отобранных ранее бактерий, для каждой из них была извлечена последовательность одной из 16S рРНК. Все последовательности были собраны в один файл и выровнены программой muscle.
Полученное выравнивание: смотреть
Затем выравнивание было подано на вход программам, реконструирующим филогенетическое дерево.
Деревья, полученные программами fdnaml и fdnapars соответственно:

     +--AGRRK_RNA 
  +--1  
  |  +---RHOS4_RNA 
  |  
  |             +ERWCT_RNA 
  |          +--6  
  |       +--5  +-ECOLI_RNA 
  |       |  |  
  |   +---4  +YERPE_RNA 
  |   |   |  
  2---3   +-VIBCH_RNA 
  |   |  
  |   +--PSEAE_RNA 
  |  
  +------------------------------------------RALPJ_RNA 


                +ERWCT_RNA 
             +--6  
          +--5  +ECOLI_RNA 
          |  |  
       +--4  +--YERPE_RNA 
       |  |  
  +----3  +-VIBCH_RNA 
  |    |  
  |    +--PSEAE_RNA 
  |  
  |   +--RHOS4_RNA 
  1---2  
  |   +--AGRRK_RNA 
  |  
  +------------------------------RALPJ_RNA 

С помощью программы fprotdist была получена матрица расстояний для этих последовательностей:
RALPJ_RNA  0.000000 0.776796 0.823900 0.825179 0.836865 0.857512 0.823141 0.814987
AGRRK_RNA  0.776796 0.000000 0.109137 0.206974 0.231453 0.245104 0.240878 0.239485
RHOS4_RNA  0.823900 0.109137 0.000000 0.217396 0.237455 0.246272 0.249233 0.243546
PSEAE_RNA  0.825179 0.206974 0.217396 0.000000 0.161780 0.171968 0.157027 0.160000
VIBCH_RNA  0.836865 0.231453 0.237455 0.161780 0.000000 0.095952 0.103400 0.091000
YERPE_RNA  0.857512 0.245104 0.246272 0.171968 0.095952 0.000000 0.057054 0.049705
ECOLI_RNA  0.823141 0.240878 0.249233 0.157027 0.103400 0.057054 0.000000 0.046380
ERWCT_RNA  0.814987 0.239485 0.243546 0.160000 0.091000 0.049705 0.046380 0.000000
По этой матрице были построены деревья программами:
-ffitch

           +ERWCT_RNA 
         +-6 
       +-5 +-ECOLI_RNA 
       ! ! 
     +-4 +-YERPE_RNA 
     ! ! 
  +--3 +--VIBCH_RNA 
  !  ! 
  !  +---PSEAE_RNA 
  ! 
  !  +--AGRRK_RNA 
  2--1 
  !  +--RHOS4_RNA 
  ! 
  +-----------------------------------------RALPJ_RNA 

-fkitsch (дерево укоренено)

                            +-ERWCT_RNA 
                          +-7 
                        +-6 +-ECOLI_RNA 
                        ! ! 
                      +-5 +-YERPE_RNA 
                      ! ! 
                    +-4 +--VIBCH_RNA 
                    ! ! 
  +-----------------3 +----PSEAE_RNA 
  !                 ! 
  !                 !  +---RHOS4_RNA 
--1                 +--2 
  !                    +---AGRRK_RNA 
  ! 
  +------------------------RALPJ_RNA 

Все неукорененные деревья по множеству нетривиальных ветвей совпадают с правильным. Однако RALPJ отстоит от остальных листьев дальше, чем на деревьях, которые были построены по выравниванию белков.

Построение и анализ дерева, содержащего паралоги

По базе данных, созданных программой formatdb по файлу proteo.fasta, содержащему записи банка UniProt, относящиеся к протеобактериям из задания 1, был проведен поиск гомологов белка FTSH_ECOLI программой blastp. Среди них были отобраны находки, соответствующие отобранным мною бактериям (для которых были построены предыдущие деревья). Последовательности находок были выравнены программой muscle, а затем по выравниванию программой fprotpars было построено дерево:


                                                        +--B9JPL8_AGRRK
                       +--------------------------------9  
                       !                                +--Q9I5R4_PSEAE
                       !  
                       !                                +--Q6D9B8_ERWCT
                       !                             +-19  
                       !                          +-18  +--FTSH_ECOLI
                       !                          !  !  
                       !                       +-17  +-----Q0WBE7_YERPE
                       !                       !  !  
     +-----------------8                    +-16  +--------Q9KU86_VIBCH
     !                 !                    !  !  
     !                 !              +----15  +-----------Q9HV48_PSEAE
     !                 !              !     !  
     !                 !        +----14     +--------------B2UGP9_RALPJ
     !                 !        !     !  
     !                 !        !     !                 +--Q3J045_RHOS4
     !                 !     +-12     +----------------13  
     !                 !     !  !                       +--B9J9H1_AGRRK
     !                 !     !  !  
     !                 +----10  !                       +--B2UIS9_RALPJ
     !                       !  +----------------------11  
  +--7                       !                          +--B2UE66_RALPJ
  !  !                       !  
  !  !                       +-----------------------------B2U6W7_RALPJ
  !  !  
  !  !                                                  +--HSLU_ECOLI
  !  !                                               +--6  
  !  !                                            +--5  +--HSLU_YERPE
  !  !                                            !  !  
  1  !                                         +--4  +-----HSLU_VIBCH
  !  !                                         !  !  
  !  !                                      +--3  +--------HSLU_PSEAE
  !  !                                      !  !  
  !  +--------------------------------------2  +-----------HSLU_RALPJ
  !                                         !  
  !                                         +--------------HSLU_RHOS4
  !  
  +--------------------------------------------------------B9JD33_AGRRK
Будем считать реконструкцию дерева верной.
Паралоги - 2 гомологичных белка из одного организма.
Примеры:
ветвь 11, B2UIS9_RALPJ и B2UE66_RALPJ
HSLU_ECOLI и FTSH_ECOLI

Ортологи - 2 гомологичных белка из разных организмов, разделение общего предка которых произошло в результате видообразования.
Примеры:
ветвь 6, HSLU_ECOLI и HSLU_YERPE
Q6D9B8_ERWCT и Q9KU86_VIBCH

© Яшина 2009