Занятие 4.

Работа с нуклеотидными последовательностями/деревья, содержащие паралоги.

Построение дерева по нуклеотидным последовательностям

Необходимо добыть последовательности 16S рибосомальной РНК каждой из бактерий, которые были выбраны при выполнении предыдущего задания.

Из записей EMBL, соответствующих геномам отобранных ранее бактерий, для каждой из них была извлечена последовательность одной из 16S рРНК.

Все последовательности были собраны в один файл. После этого они были выровнены с помощью программы muscle.

muscle -in 16s.fasta -out 16s_aligned.fasta

Полученное выравнивание: смотреть

Затем выравнивание было подано на вход программам, реконструирующим филогенетическое дерево.

Первой была выполнена команда:

fdnaml -sequence 16s_aligned.fasta

Дерево, полученное программой fdnaml:

        +---AGRRK_RNA 
  +-----1  
  |     +--RHOS4_RNA 
  |  
  |        +YERPE_RNA 
  |  +-----5  
  |  |     |  +-ECOLI_RNA 
  2--3     +--4  
  |  |        +-ERWCT_RNA 
  |  |  
  |  +----PSEAE_RNA 
  |  
  +-------RALPJ_RNA 

Потом я выполнила команду:

fdnapars -sequence 16s_aligned.fasta

Дерево, полученное программой fdnapars:

         +-ECOLI_RNA 
     +---4  
     |   |  +YERPE_RNA 
  +--3   +--5  
  |  |      +-ERWCT_RNA 
  |  |  
  |  +----PSEAE_RNA 
  |  
  |     +------RHOS4_RNA 
  1-----2  
  |     +-----AGRRK_RNA 
  |  
  +-----RALPJ_RNA 

С помощью программы fprotdist была получена матрица расстояний для этих последовательностей:

fdnadist -sequence 16s_aligned.fasta

RALPJ_RNA  0.000000 0.256243 0.260088 0.208818 0.232543 0.228903 0.225732
AGRRK_RNA  0.256243 0.000000 0.126167 0.228093 0.243902 0.251076 0.254306
RHOS4_RNA  0.260088 0.126167 0.000000 0.199664 0.239584 0.242342 0.226821
PSEAE_RNA  0.208818 0.228093 0.199664 0.000000 0.176693 0.173772 0.181109
ERWCT_RNA  0.232543 0.243902 0.239584 0.176693 0.000000 0.051043 0.045336
ECOLI_RNA  0.228903 0.251076 0.242342 0.173772 0.051043 0.000000 0.055912
YERPE_RNA  0.225732 0.254306 0.226821 0.181109 0.045336 0.055912 0.000000
Далее эту матрицу расстояний подаем на вход программе ffitch:

ffitch 16s_aligned.fdnadist

Полученное дерево выглядит следующим образом:

       +ECOLI_RNA 
    +----4 
    !    ! +-YERPE_RNA 
  +-3    +-5 
  ! !      +ERWCT_RNA 
  ! ! 
  ! +----PSEAE_RNA 
  ! 
  !   +----AGRRK_RNA 
  2---1 
  !   +---RHOS4_RNA 
  ! 
  +------RALPJ_RNA 

Все неукорененные деревья по множеству нетривиальных ветвей совпадают с правильным, изображенным на картинке ниже.

Построение и анализ дерева, содержащего паралоги

Следующей задачей было найти гомологов белка FTSH_ECOLI в выбранных организмах.

Чтобы найти гомологов в заданных организмах, я воспользовалась файлом proteo.fasta на диске P, там лежат записи банка UniProt, относящиеся к протеобактериям, перечисленным в таблице к заданию 1.

Необходимо провести поиск программой BLASTP гомологов (с разумным порогом на E-value, скажем, 0,0001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным вами бактериям.

Сначала были созданы индексные файлы пакета BLAST для поиска по набору белков:

formatdb -i proteo.fasta -p T -n prot

Далее была запущена программа BLASTP с пороговым значением E-value 0,0001:

blastall -p blastp -d prot -i ft.fasta -o out.txt -e 0.0001, где ft.fasta - последовательность FTSH_ECOLI

Результат работы программы можно посмотреть здесь

Найденные гомологи:

FTSH_ECOLI, FTSH_SALTY, Q6D9B8_ERWCT, Q0WBE7_YERPE, Q9HV48_PSEAE, B9J9H1_AGRRK, B2UGP9_RALPJ, Q3J045_RHOS4, B2UE66_RALPJ, B2UIS9_RALPJ, 
Q9I5R4_PSEAE, B9JPL8_AGRRK, B2U6W7_RALPJ, HSLU_RALPJ, B9JD33_AGRRK, HSLU_RHOS4, HSLU_YERPE, HSLU_PSEAE, HSLU_ECOLI.
Последовательности гомологов можно просмотреть здесь

Последовательности находок были преобразованы программой muscle:

muscle -in gomologi.fasta -out gomologi_aligned.fasta

После этого полученный файл был предоставлен программе fprotpars:

fprotpars -sequence gomologi_aligned.fasta

Программа предложила дерево такого вида:

 
                                               +-----FTSH_ECOLI
                                            +-16  
                                            !  !  +--Q6D9B8_ERW
                                         +-15  +-17  
                                         !  !     +--Q0WBE7_YER
                                   +----14  !  
                                   !     !  +--------Q9HV48_PSE
                                   !     !  
                             +----13     +-----------B2UGP9_RAL
                             !     !  
                             !     !              +--Q3J045_RHO
                          +-11     +-------------12  
                          !  !                    +--B9J9H1_AGR
                          !  !  
     +--------------------9  !                    +--B2UIS9_RAL
     !                    !  +-------------------10  
     !                    !                       +--B2UE66_RAL
     !                    !  
     !                    +--------------------------B2U6W7_RAL
  +--6  
  !  !                                            +--B9JPL8_AGR
  !  !                             +--------------8  
  !  !                             !              +--Q9I5R4_PSE
  !  !                             !  
  !  !                             !              +--HSLU_ECOLI
  !  +-----------------------------7        +-----5  
  1                                !        !     +--HSLU_YERPE
  !                                !     +--4  
  !                                !     !  !     +--HSLU_PSEAE
  !                                +-----2  +-----3  
  !                                      !        +--HSLU_RALPJ
  !                                      !  
  !                                      +-----------HSLU_RHOS4
  !  
  +--------------------------------------------------B9JD33_AGR

  remember: this is an unrooted tree!


requires a total of   7862.000
Если считать реконструкцию последнего дерева верной, тогда :

Паралоги - 2 гомологичных белка из одного организма.
Примеры:
ветвь 10, B2UIS9_RALPJ и B2UE66_RALPJ
HSLU_ECOLI и FTSH_ECOLI

Ортологи - 2 гомологичных белка из разных организмов, разделение общего предка которых произошло в результате видообразования.
Примеры:
ветвь 5, HSLU_ECOLI и HSLU_YERPE