На страницу IV-ого семестра

Моделирование эволюции гена

  1. Основной целью данного задания было выяснить какой алгоритм реконструкции филогенетических деревьев лучше справляется со своей задачей.

    Для выяснения этого создали модель, в которой ген белка Biob_Ecoli мутировал в соответствии с заранее заданным филогенетическим деревом.

    ((А:86,В:86):14,((С:40,D:40):15,(Е:30,F:30):30):40);

    Модельное дерево

  2. Данному дереву отвечает следующая таблица ветвей как разбиений:
    	ABCDEF
    	..****
    	**..**
    	****..
    	

  3. Для получения мутантных последовательностей воспользовались программой msbar из пакета EMBOSS. В исходном дереве все мутации указаны на 100 нуклеотидов, для получения реальных мутантов гена bioB необходимо пересчиталь количество мутаций на длину гена 1041 нуклеотидов по формуле:
    формула
    где М-число мутаций на длину последовательности, m-число мутаций на 100 нуклеотидов, L-длина последовательности.

    Создали скрипт, который позволяет сразу получить все 6 нуклеотидных мутантных последовательностей (A, B, C, D, E, F). Скрипт:

    msbar biob_gene.fasta AB.fasta -point 4 -count 146 -auto
    msbar AB.fasta A.fasta -point 4 -count 895 -auto
    msbar AB.fasta B.fasta -point 4 -count 895 -auto
    msbar biob_gene.fasta CDEF.fasta -point 4 -count 416 -auto
    msbar CDEF.fasta CD.fasta -point 4 -count 156 -auto
    msbar CD.fasta C.fasta -point 4 -count 416 -auto
    msbar CD.fasta D.fasta -point 4 -count 416 -auto
    msbar CDEF.fasta EF.fasta -point 4 -count 312 -auto
    msbar EF.fasta E.fasta -point 4 -count 312 -auto
    msbar EF.fasta F.fasta -point 4 -count 312 -auto
    echo WELL DONE!!!
    cat A.fasta >> al_mut.fasta
    cat B.fasta >> al_mut.fasta
    cat C.fasta >> al_mut.fasta
    cat D.fasta >> al_mut.fasta
    cat E.fasta >> al_mut.fasta
    cat F.fasta >> al_mut.fasta
    echo All mutant sequences are in file al_mut.fasta!!!

  4. На основании полученных мутантных последовательностей реконструировали филогенетические деревья алгоритмами UPGMA, Neighbor-joining и максимального правдоподобия.

    Команды UNIX:

    Алгоритм Дерево Таблица ветвей как разбиений
    Максимального правдоподобия
    
      +-----------------------------------------mut_B     
      |  
      |                                     +-------------mut_F     
      |                          +----------4  
      |                          |          +--------------mut_E     
      1--------------------------3  
      |                          |      +----------------mut_D     
      |                          +------2  
      |                                 +---------------mut_C     
      |  
      +-------------------------------------------mut_A 
    ABCDEF
    ..****
    **..**
    ****..
    Neighbor-joining
    
      +------------------------------------------mut_B     
      ! 
      !                                     +---------------mut_C     
      !                            +--------3 
      !                            !        +------------------mut_D     
      1----------------------------4 
      !                            !          +-------------mut_E     
      !                            +----------2 
      !                                       +-------------mut_F     
      ! 
      +-------------------------------------------mut_A  
    ABCDEF
    ..****
    **..**
    ****..
    UPGMA
    
           +-------------------------------------------mut_A     
      +----4 
      !    +-------------------------------------------mut_B     
      ! 
    --5                               +----------------mut_C     
      !                       +-------2 
      !                       !       +----------------mut_D     
      +-----------------------3 
                              !          +-------------mut_E     
                              +----------1 
                                         +-------------mut_F 
    ABCDEF
    ..****
    **..**
    ****..

    Из вышеприведенной таблицы видно, что все полученные реконструкции филогенетических деревьев идентичны между собой, а также истинному дереву. Дерево построенное по алгоритму UPGMA отличается от всех остальных лишь наличием корня, кстати следует заметить, что корень в данном случае выбран абсолютно верно. В деревьях построенных по алгоритмам максимального правдоподобия и Neighbor-joining немножко напутаны расстояния, например в дереве алгоритма Neighbor-joining расстоятия между 3 и mut_C не равно расстоянию между 3 и mut_D, что не верно; тем не менее они происходят от одной предковой последовательности, что верно отражает ход "эволюции".
    С алгоритмом UPGMA случай довольно интересный. UPGMA строит ультраметрическое дерево (скорость эволюции одинакова для всех ветвей) и для объектов эволюционирующих с одинаковой скорость работает хорошо (ультраметрические данные). В нашем случае последовательности C и D получили меньше мутаций чем все остальные - не ультраметричность!!! Поэтому то, что все "названия выстроились в одну колонку" не отражает реальной эволюции.
    Таким образом, можно отметить, что все программы справились с поставленной задачей и построили филогенетическое дерево соответствующее исходному по топологии.

  5. Провели бутстреп-анализ выравнивания мутированных последовательностей. Для этого сначала создали 100 бутстреп-реплик выравнивания наших последовательностей, по которым программой fdnaml построили 100 деревьев содержащихся в одном файле. После этого программа fconsense провела анализ полученных деревьев и построила консенсусное дерево.

    Consensus tree program, version 3.6b
    
    Species in order: 
    
      1. mut C
      2. mut D
      3. mut F
      4. mut E
      5. mut B
      6. mut A
    
    
    Sets included in the consensus tree
    
    Set (species in order)     How many times out of  100.00
    
    ....**                     99.00
    ..**..                     99.00
    ..****                     90.00
    
    
    Sets NOT included in consensus tree:
    
    Set (species in order)     How many times out of  100.00
    
    .***..                      9.00
    .*...*                      1.00
    ...**.                      1.00
    ..***.                      1.00
    
    
    Extended majority rule consensus tree
    
    CONSENSUS TREE:
    the numbers on the branches indicate the number
    of times the partition of the species into the two sets
    which are separated by that branch occurred
    among the trees, out of 100.00 trees
    
      +---------------------------mut C
      |
      |      +--------------------mut D
      |      |
      +------|             +------mut A
             |      +-99.0-|
             |      |      +------mut B
             +-90.0-|
                    |      +------mut E
                    +-99.0-|
                           +------mut F
    
    
      remember: this is an unrooted tree!

    Несмотря на то, что дерево приведенное выше казалось бы не похоже на наше исходное дерево - это ложное ощущение. Важно помнить, что это неукорененное дерево!!! А таблицы ветвей как разбиений для консенсусного и для истинного деревьев полность идентичны. Кстати, в этом можно также убедиться если с помощью программы drawtree построить дерево по выданной после бутстреп-анализа скобочной структуре:

    (mut_C:100.0,(mut_D:100.0,((mut_A:100.0,mut_B:100.0):99.0,(mut_E:100.0,mut_F:100.0):99.0):90.0):100.0);	

    Сравнив это дерево с истинным, приведенном ниже можно убедиться, что в топологии отличия отсутствуют. Длины ветвей в вышеприведенном дереве не соответствуют истинным, ввиду того, что при бутстреп-анализе вместо длин ветвей указываются бутстреп-значения.

    Бутстреп-значения для внутренних ветвей консенсусного дерева выделены жирным в тексте файла, приведенного выше. Бутстреп-значения для ветвей достаточно высоки (>90%) это говорит о том, что такие ветви статистически надежны. То есть построенному дереву можно верить.

  6. С помощью программы drawtree визуализировали скобочную структуру истинного дерева:

    Программа drawtree строит дерево в формате postscript (*.ps). Команда UNIX:

    fdrawtree al_mut.treefile al_mut.ps 

    ((А:86,В:86):14,((С:40,D:40):15,(Е:30,F:30):30):40);


© Sedliarov Vitaliy