Реконструкция филогении по нуклеотидным последовательнсотям. Анализ деревьев, содержащих паралоги.

  1. Построение дерева по нуклеотидным последовательностям
  2. -Были добыты последовательности 16S рРНК для каждой из бактерий из предыдущих заданий в записях EMBL (в полном геноме бактерии есть соответствующая запись FT /note="тратата" 16S rRNA "дальше что-нибудь ещё, описывающее её функции, т.к. копий рРНК для разных целей много"). Потом с помощью сервера kodomo были получены сами последовательности:
    seqret embl:CP002468 bacsu.fasta -sask
    Reads and writes (returns) sequences
    Begin at position [start]: 398497
    End at position [end]: 399231
    Reverse strand [N]: Y

    Мнемоника AC записи EMBL Координаты FT, в которой описано 16S рРНК
    BACSU CP002468 2306291..2307843
    CLOB1 FR773526 9246..10747
    CLOTE AE015927 complement(8715..10223)
    ENTFA CP002491 complement(374851..376399)
    FINM2 AP008971 197837..199361
    GEOKA BA000043 10421..11973
    LACAC CP000033 59255..60826
    LACDA CP000412 43705..45265
    -Потом все полученные последовательности были положены в один файл и выровненны программой muscle:
    muscle -in bac_seq.fasta -out bac_seq_al.fasta
    результат выравнивания.
    -Для построения дерева была использована программа fdnadist , которая выдала матрицу расстояний. Полученная матрица была подана на вход программе fkitsch.



    В данном дереве есть следующие правильные 3 ветви:
    (LACAC,LACDA)
    (CLOTE,CLOB1)
    ((CLOTE,CLOB1),FINM2)
    Реконструкция по белкам, сделанная в предыдущих заданиях, выглядит более правдоподобно, чем реконcтрукция по ДНК, т.к. данным методом удалось правильно определить только 3 ветви, с помощью реконструкции по белкам:
    fprotpars - топология дерева правильная только у второго дерева из двух
    алгоритм Neighbor-Joining - топология дерева правильная
    алгоритм UPGMA - топология неверная [нет ((LACAC,LACDA),ENTFA)]
    TreeTop - топология дерева неправильная [нет ((CLOB1,CLOTE),FINM2) и ((LACAC,LACDA),ENTFA)]
    С использованием аутгруппы - [должна быть ((LACAC,LACDA),ENTFA), а не в ((GEOKA,BACSU),ENTFA)]
    бутстрэп-анализ - правильное.
    Если сравнивать укоренение, то
    алгоритм UPGMA - не соответствует правильному дереву
    укоренение в среднюю точку - дерево полностью соответствует правильному
    fkitsh - укоренение неверно
    укоренение с использованием аутгруппы - неверно.
  3. Построение и анализ дерева, содержащего паралоги

    Для поиска гомологов в заданных организмах был использован файл proteo.fasta, где лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1.
    formatdb -i proteo.fasta -p T - созданы индексные файлы;
    blastall -p blastp -d proteo.fasta -e 0.001 -i clpx_bacsu.fasta -o blastp.fasta - проведён поиск программой BLASTP гомологов с E-value=0.001;
    По мнемонике видов были выбраны только те находки, которые относились к выбранным мною бактериям:

    sp|Q5KWJ9|CLPX_GEOKA ATP-dependent Clp protease ATP-binding subu... 671 0.0
    sp|Q891J8|CLPX_CLOTE ATP-dependent Clp protease ATP-binding subu...     555 e-159
    sp|A7FYI1|CLPX_CLOB1 ATP-dependent Clp protease ATP-binding subu...     549 e-157
    sp|Q833M7|CLPX_ENTFA ATP-dependent Clp protease ATP-binding subu...    545 e-156
    tr|B0S2N5|B0S2N5_FINM2 ATP-dependent Clp protease ATP-binding su...      520 e-148
    sp|Q5FKD8|HSLU_LACAC ATP-dependent protease ATPase subunit HslU;      104 3e-23
    sp|Q834K4|HSLU_ENTFA ATP-dependent protease ATPase subunit HslU;        100 6e-22
    sp|Q1G9V4|HSLU_LACDA ATP-dependent protease ATPase subunit HslU;       97 6e-21
    sp|Q5L0N1|HSLU_GEOKA ATP-dependent protease ATPase subunit HslU;       92 1e-19
    sp|P39778|CLPY_BACSU ATP-dependent protease ATPase subunit ClpY;         90 7e-19
    tr|B0S0E3|B0S0E3_FINM2 Cell division protein;                                                  50 7e-07
    sp|P37571|CLPC_BACSU Negative regulator of genetic competence Cl...            49 3e-06
    sp|O31673|CLPE_BACSU ATP-dependent Clp protease ATP-binding subu...      48 4e-06
    tr|B0S3X9|B0S3X9_FINM2 ATP-dependent protease Clp ATP-binding su...        41 5e-04
    tr|B0S222|B0S222_FINM2 ATP-dependent zinc metallopeptidase;                       40 8e-04

    С помощью программы seqret получены последовательности этих белков:
    seqret sw:CLPX_GEOKA clpx_geoka.fasta (последовательности с tr| были скачаны вручную);
    Также были сделаны выравнивания программой muscle;
    Далее с помощью fprotpars было построено дерево:


    Ортологи (разделение произошло в результате видообразования, находятся в разных организмах):
    HSLU_LACDA, HSLU_LACAC;
    CLPX_ENTFA, CLPX_GEOKA;
    Паралоги (2 гомологичных белка принадлежат одному и тому же организму):
    CLPE_BACSU, CLPC_BACSU;
    B0S222_FINM2, B0S0E3_FINM2;

© Anastasia Maslova, 2011