Филогенетическое дерево

На страничку четвертого семестра



  1. Задание 1

  2. Отобранные бактерии:

    НазваниеМнемоника
    Bacillus anthracisBACAN
    Bacillus subtilisBACSU
    Clostridium tetaniCLOTE
    Enterococcus faecalisENTFA
    Geobacillus kaustophilusGEOKA
    Finegoldia magnaFINM2
    Staphylococcus aureusSTAA1
    Staphylococcus epidermidisSTAES
    Streptococcus pyogenesSTRP1
    Thermoanaerobacter tengcongensisTHETN

    Скобочная форма дерева:

    (((ENTFA,STRP1),((STAA1,STAES),((BACAN,BACSU),GEOKA))),((CLOTE,FINM2),THETN));

    Изображение дерева:



    Нетривиальные ветви дерева:

    1) {ENTFA,STRP1} vs {STAA1,STAES,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    2) {STAA1,STAES} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    3) {BACAN,BACSU} vs {ENTFA,STRP1,STAA1,STAES,GEOKA,CLOTE,FINM2,THETN}
    4) {CLOTE,FINM2} vs {ENTFA,STRP1,STAA1,STAES,BACAN,BACSU,GEOKA,THETN}
    5) {BACAN,BACSU,GEOKA} vs {ENTFA,STRP1,STAA1,STAES,CLOTE,FINM2,THETN}
    6) {CLOTE,FINM2,THETN} vs {ENTFA,STRP1,STAA1,STAES,BACAN,BACSU,GEOKA}
    7) {STAA1,STAES,BACAN,BACSU,GEOKA} vs {ENTFA,STRP1,CLOTE,FINM2,THETN}

Филогенетическое дерево, занятие 2.

  • Задание 1

  • Таксономия:

    BACAN: Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Bacillus; Bacillus cereus group
    BACSU: Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Bacillus; Bacillus subtilis group
    GEOKA: Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Geobacillus

    STAA1: Bacteria; Firmicutes; Bacilli; Bacillales; Staphylococcaceae; Staphylococcus
    STAES: Bacteria; Firmicutes; Bacilli; Bacillales; Staphylococcaceae; Staphylococcus

    ENTFA: Bacteria; Firmicutes; Bacilli; Lactobacillales; Enterococcaceae; Enterococcus
    STRP1: Bacteria; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus

    THETN: Bacteria; Firmicutes; Clostridia; Thermoanaerobacterales; Thermoanaerobacteraceae; Caldanaerobacter; Caldanaerobacter subterraneus

    CLOTE: Bacteria; Firmicutes; Clostridia; Clostridiales; Clostridiaceae; Clostridium
    FINM2: Bacteria; Firmicutes; Clostridia; Clostridiales; Clostridiales incertae sedis; Clostridiales Family XI. Incertae Sedis; Finegoldia

    Ветви:

    Классы:
    Ветвь (((ENTFA,STRP1),((STAA1,STAES),((BACAN,BACSU),GEOKA))) - Bacilli
    Ветвь ((CLOTE,FINM2),THETN) - Clostridia

    Поряки:
    Ветвь (ENTFA,STRP1) - Lactobacillales
    ветвь (((BACAN,BACSU),GEOKA),(STAA1,STAES)) - Bacillales
    ветвь (CLOTE,FINM2) - Clostridiales

    Семейства:
    Ветвь (STAA1,STAES) - Staphylococcaceae, Staphylococcus (Род)
    ветвь ((BACAN,BACSU),GEOKA)) - Bacillaceae

    Роды:
    Ветвь (BACAN,BACSU) - Bacillus

  • Задание 2
  • Выбранная функция - энолаза (ENO).
    Команда для скачивания entret-файлов со Swiss-prot: entret sw:(мнемоника функции белка)_(мнемоника организма)
    Команда для создания fasta-файла с последовательностями белков: seqret "*.entret" all.fasta

  • Задание 3
  • Команда для выравнивания последовательностей белков: muscle -in all.fasta -out allign.fasta

  • Задание 5
  • Команда для получения филогенетического дерева: fprotpars -in allign.fasta

    Правильное дерево:
    Полученное дерево:


    Ветви, которые есть в обоихдеревьях:
    {STAA1,STAES} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {CLOTE,FINM2,THETN} vs {ENTFA,STRP1,STAA1,STAES,BACAN,BACSU,GEOKA}
    Ветви, которые есть только в правильном дереве:
    {ENTFA,STRP1} vs {STAA1,STAES,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {BACAN,BACSU} vs {ENTFA,STRP1,STAA1,STAES,GEOKA,CLOTE,FINM2,THETN}
    {CLOTE,FINM2} vs {ENTFA,STRP1,STAA1,STAES,BACAN,BACSU,GEOKA,THETN}
    {BACAN,BACSU,GEOKA} vs {ENTFA,STRP1,STAA1,STAES,CLOTE,FINM2,THETN}
    {STAA1,STAES,BACAN,BACSU,GEOKA} vs {ENTFA,STRP1,CLOTE,FINM2,THETN}
    Ветви, которые есть только в полученном дереве:
    {STAA1,STAES,STRP1} vs {ENTFA,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {STAA1,STAES,STRP1,ENTFA} vs {BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {STAA1,STAES,STRP1,ENTFA,BACAN} vs {BACSU,GEOKA,CLOTE,FINM2,THETN}
    {STAA1,STAES,STRP1,ENTFA,BACAN,BACSU} vs {GEOKA,CLOTE,FINM2,THETN}

  • Задание 6
  • Матрица расстояний:
                 FINM2      CLOTE     THETN     BACAN     BACSU     GEOKA     ENTFA     STRP1     STAA1      STAES  
    FINM2       0.000000  0.422314  0.346572  0.362652  0.328530  0.304786  0.402775  0.469770  0.412631  0.417858  
    CLOTE       0.422314  0.000000  0.295729  0.410973  0.356587  0.319608  0.423546  0.491095  0.462743  0.464736  
    THETN       0.346572  0.295729  0.000000  0.348618  0.299499  0.259085  0.349405  0.419228  0.416549  0.431330  
    BACAN       0.362652  0.410973  0.348618  0.000000  0.234548  0.218080  0.243710  0.298437  0.275402  0.283263  
    BACSU       0.328530  0.356587  0.299499  0.234548  0.000000  0.135023  0.286696  0.349118  0.306673  0.311242  
    GEOKA       0.304786  0.319608  0.259085  0.218080  0.135023  0.000000  0.267808  0.339292  0.300606  0.299508  
    ENTFA       0.402775  0.423546  0.349405  0.243710  0.286696  0.267808  0.000000  0.218899  0.308318  0.323543  
    STRP1       0.469770  0.491095  0.419228  0.298437  0.349118  0.339292  0.218899  0.000000  0.211608  0.236847  
    STAA1       0.412631  0.462743  0.416549  0.275402  0.306673  0.300606  0.308318  0.211608  0.000000  0.058540  
    STAES       0.417858  0.464736  0.431330  0.283263  0.311242  0.299508  0.323543  0.236847  0.058540  0.000000  
    Ультраметричность: d(A,B) <= max(d(A,C), d(B,C))
    "из трех расстояний между тремя объектами два всегда равны между собой и не меньше третьего".
    Отклонения от ультраметричности:
    d(BACAN,THETN)=0.348618
    d(BACAN,CLOTE)=0.410973
    d(CLOTE,THETN)=0.295729
    Удоволетворяет ультраметричности:
    d(STAA1,FINM2)=0.412631
    d(STAES,FINM2)=0.417858
    d(STAA1,STAES)=0.058540

    Аддитивность: если есть 4 последовательности: A, B, C, D, - то из трех сумм d(A,B) + d(C,D); d(A,C) + d(B,D);
    d(A,D) + d(B,C) две равны между собой и больше третьей. GEOKA, ENTFA, STRP1, STAA1:
    d(GEOKA, ENTFA)+d(STRP1, STAA1)=0.267808+0.211608=0.479416
    d(GEOKA, STRP1)+d(ENTFA, STAA1)=0.339292+0.308318=0.64761
    d(GEOKA, STAA1)+d(ENTFA, STRP1)=0.300606+0.218899=0.519505
    Этот пример не удоволетворяет аддитивности.

  • Задание 7

  • Правильное дерево:
    Дерево, полученное с помощью программы fprotdist:
    Дерево, полученное с использованием алгоритма UPGMA:
    Дерево, полученное с использованием алгоритма Neighbor-Joining:


    Дерево, полученное с помощью алгоритма UPGMA ближе к правильному дереву, а дерево Neighbor-Joining - ближе к полученному с помощью программы fprotdist. Однако все 4 дерева получились различные.

    Занятие 3.

  • Задание 1

    1. Укоренить дерево, построенное методом максимльной экономии, нельзя, потому что этот алгоритм не выдает длин ветвей.
    2. Укоренять дерево, постороенное методом UPGMA не имеет смысла, так как UPGMA строит уже укорененные деревья.
    Дерево, полученное методом neighbour-joining:


    Правильное дерево:

    (((ENTFA,STRP1),((STAA1,STAES),((BACAN,BACSU),GEOKA))),((CLOTE,FINM2),THETN));
    Укорененное дерево:

    (((BACAN,(ENTFA,(STRP1,(STAA1,STAES)))),(BACSU,GEOKA)),(FINM2,(CLOTE,THETN)));

    Дерево было укоренено в ветвь {CLOTE,THETN,FINM2} vs {ENTFA,STRP1,STAA1,STAES,BACAN,BACSU,GEOKA}, то есть корень совпадает с корнем правильного дерева.
    Однако правильное и укорененное деревья отличаются по структуре ветвей:
    В обоих деревьях совпадает только ветвь (STAA1,STAES). Все остальные ветви различны.

  • Задание 2

  • Правильное дерево:
    Укорененное дерево c ECOLI:


    1) Укорененное дерево с ECOLI полностью совпадает с деревом, построенным с помощью Neighbor-joining.

  • Задание 3

  • Правильное дерево:
    Дерево, полученное с помощью программы fconsense:


    1) Дерево, построенное программой fconsense сильно отличается от всех деревьев, в том числе и от правильного.
    2) Реконструкция филогении не улучшилась. Возможно, такой результат получен из-за работы с данным конкретным семейством белков.

    Занятие 4.

  • Задание 1

  • Правильное дерево:
    Дерево, построенное программой fdnaml:


    Количественная оценка:

    Число общих ветвей у деревьев, построенных приведенными ниже программами с эталонным деревом.
    1) Метод NJ программы fneighbor:
    Число общих ветвей - 2:
    {STAA1,STAES} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {CLOTE,FINM2,THETN} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,STAA1,STAES}

    2) Метод UPGMA программы fneighbor:
    Число общих ветвей - 4:
    {STAA1,STAES} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {CLOTE,FINM2,THETN} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,STAA1,STAES}
    {BACAN,BACSU,GEOKA} vs {ENTFA,STRP1,CLOTE,FINM2,THETN,STAA1,STAES}
    {ENTFA,STRP1} vs {BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN,STAA1,STAES}

    3) fprotpars без bootstrap'а:
    Число общих ветвей - 2:
    {STAA1,STAES} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {CLOTE,FINM2,THETN} vs {ENTFA,STRP1,STAA1,STAES,BACAN,BACSU,GEOKA}

    4) fprotpars c bootstrap'ом:
    Число общих ветвей - 1:
    {STAA1,STAES} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}

    5) fdnaml (дерево, построенное по нуклеотидным последовательностям):
    Число общих ветвей - 4:
    {CLOTE,FINM2} vs {ENTFA,THETN,STRP1,BACAN,BACSU,GEOKA,STAA1,STAES}
    {CLOTE,FINM2,THETN} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,STAA1,STAES}
    {STAA1,STAES} vs {ENTFA,STRP1,BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN}
    {ENTFA,STRP1} vs {BACAN,BACSU,GEOKA,CLOTE,FINM2,THETN,STAA1,STAES}

    Таким образом дерево, полученное методом UPGMA программы fneighbor оказалось наиболее близким к эталонному.

  • Доделки (практикум 13)

  • 1)
    Отобранные бактерии:

    МнемоникаACFTКоманда
    BACANAE016879направление соответствует выбранному для записи seqret "BACAN.enret[9335:10841]" stdout >> rna.fasta
    CLOTEAE015927направление соответствует направлению, выбранному для записиseqret "CLOTE.enret[8715:10223]" stdout >> rna.fasta
    ENTFAAE016830направление соответствует направлению, выбранному для записи seqret "ENTFA.entret[248466:249987]" stdout >> rna.fasta
    GEOKABA000043направление соответствует направлению, выбранному для записиseqret "GEOKA.entret[10421:11973]" stdout >> rna.fasta
    FINM2AP008971направление соответствует направлению, выбранному для записиseqret "FINM2.entret[197837:199361]" stdout >> rna.fasta
    STAA1AP009324направление соответствует направлению, выбранному для записиseqret "STAA1.entret[531922:533476]" stdout >> rna.fasta
    STAESAE015929РНК лежит на комплементарной цепи.seqret STAES.entret -sask stdout >>rna.fasta
    STRP1AE004092направление соответствует направлению, выбранному для записиseqret "STRP1.entret[17170:18504]" stdout >> rna.fasta
    THETNAE008691направление соответствует направлению, выбранному для записиseqret "THETN.entret[53858:55384]" stdout >> rna.fasta
    2) Команда, с помощью которой получено выравнивание последовательностей 16S рРНК бактерий:
    muscle -in rna.fasta -out rna_a.fasta

    3) Для построения деревьев я использовала две команды: fdnaml, fdnapars. На вход подавался файл с последовательностями rna_a.fasta. Все файлы лежат в дирректории H:\Term4\Practice4.

    4)Сравним эталонное дерево с деревом, полученным программой fdnapars из рРНК-последовательностей и с каждым из деревьев, полученных по белковым выравниваниям в практикуме 2.

    а)Скобочная формула эталонного дерева
    (((ENTFA,STRP1),((STAA1,STAES),((BACAN,BACSU),GEOKA))),((CLOTE,FINM2),THETN))
    Скобочная формула РНК-дерева:
    (STRP1,(ENTFA,(BACAN,((STAES,STAA1),(GEOKA,(THETN,FINM2)))),CLOTE)
    У этих деревьев имеется единаственная общая ветвь:
    (STAES,STAA1)
    b)РНК-дерево и дерево, построенное по Neighbor-Joining:
    Скобочная формула РНК-дерева:
    (STRP1,(ENTFA,(BACAN,((STAES,STAA1),(GEOKA,(THETN,FINM2)))),CLOTE)
    Скобочная формула дерева NJ:
    (((((STAES,STAA1),STRP1),ENTFA),BACAN),(THETN,CLOTE),(GEOKA,BACSU),FINM2)
    Общая ветвь та же:
    (STAES,STAA1)
    с)РНК-дерево и дерево, построенное программой UPGMA:
    Скобочная формула РНК-дерева:
    (STRP1,(ENTFA,(BACAN,((STAES,STAA1),(GEOKA,(THETN,FINM2)))),CLOTE)
    Скобочная формула дерева UPGMA:
    ((FINM2,(CLOTE,THETN)),((BACAN,(BACSU,GEOKA)),((ENTFA,STRP1),(STAA1,STAES))));
    Общая ветвь та же:
    (STAES,STAA1)
    Однако это дерево наиболее близко по структуре к эталонному.
    d) Дерево, построенное с помощью программы fprotdist наиболее близко к РНК-дереву.

  • Задание 2

  • 1) Чтобы найти гомологи белка CLPX_BACSU, были использованы следующие команды:
    formatdb -i proteo.fasta -p T
    blastall -p blastp -d proteo.fasta -i CLPX_BACSU.fasta -o CLPX_BACSU_out.fasta -e 0.001 2) Отобранные гомологи: CLPX_LISMO, HSLU_LISMO, CLPX_THETN, HSLU_THETN, CLPX_CLOTE, CLPX_ENTFA, HSLU_ENTFA, CLPX_LACLM, HSLU_STAES, CLPC_BACSU, CLPE_BACSU, CLPY_BACSU, CLPC_STAES.
    3) Дерево, полученное с помощью программы fprotpars:

    Ортологи - белки а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.
    Примеры ортологов:
    HSLU_LISMO - HSLU_STAES
    CLPX_CLOTE - CLPX_THETN
    CLPC_BACSU - CLPC_STAES
    Парологи - два гомологичных белка из одного организма.
    Примеры парологов:
    СLPX_BACSU - CLPY_BACSU
    CLPX_BACSU - CLPC_BACSU
    CLPX_THETN - HSLU_THETN

    © Karavaeva Julia 2009