На главную
Term4

Элементарные эволюционные события

Холерный вибрион Vibrio cholerae и кишечная палочка Escherichia coli

Задание 1. Оценить давление отбора на ген заданного белка (работа с веб-сервером PAL2NAL)

  • Подготовка данных
    Для исследования была взята последовательность белка Malk_ecoli. Ген моего белка взят из этого задания. С помощью Blast был найден ортолог - последовательность, совпадающая с нашей на 60-80% и имеющая похожую аннотацию в UniProt:
    >ref|ZP_01970971.1|  maltose/maltodextrin ABC transporter, ATP-binding protein [Vibrio 
    cholerae NCTC 8457]
     gb|EAZ73711.1|  maltose/maltodextrin ABC transporter, ATP-binding protein [Vibrio 
    cholerae NCTC 8457]
    Length=373
    
     Score =  437 bits (1124),  Expect = 3e-123, Method: Compositional matrix adjust.
     Identities = 214/326 (65%), Positives = 257/326 (78%), Gaps = 13/326 (3%)
    
    Query  1    LRMIAGLETITSGDLFIGEKRMNDTPPAERGVGMVFQSYALYPHLSVAENMSFGLKLAGA  60
                LR IAGLE ITSGDLFIGE+RMND  P++RGVGMVFQSYALYPHL++ +NMSFGLKL+ A
    Sbjct  46   LRCIAGLEDITSGDLFIGEQRMNDVEPSKRGVGMVFQSYALYPHLNLYDNMSFGLKLSKA  105
    
    Query  61   KKEVINQRVNQVAEVLQLAHLLDRKPKALSGGQRQRVAIGRTLVAEPSVFLLDEPLSNLD  120
                 K  I +RV+  AE+LQL+HLLDR+PKALSGGQRQRVAIGRTLV++P+VFLLDEPLSNLD
    Sbjct  106  DKSEIKKRVDHAAEILQLSHLLDRQPKALSGGQRQRVAIGRTLVSQPNVFLLDEPLSNLD  165
    
    Query  121  AALRVQMRIEISRLHKRLGRTMIYVTHDQVEAMTLADKIVVLDAGRVAQVGKPLELYHYP  180
                AALRVQMR EI++L ++LG TMIYVTHDQVEAMT+ADKIVVLDAG V+QVGKPLELYHYP
    Sbjct  166  AALRVQMRSEITKLQRKLGCTMIYVTHDQVEAMTMADKIVVLDAGFVSQVGKPLELYHYP  225
    
    Query  181  ADRFVAGFIGSPKMNFLPVKVTATAIDQVQVELPMPNRQQVWLPVESRDVQVGANMSLGI  240
                 +RFVAGFIGSPKMNF+ V +     D+VQV+L   N    W+PV+   V  G  MSLGI
    Sbjct  226  QNRFVAGFIGSPKMNFMSVFIEGVEKDRVQVQL--SNGTTFWIPVDGTTVTRGERMSLGI  283
    
    Query  241  RPEHLLPSDIADVILEGEVQVVEQLGNETQIHIQIPSIRQNLVYRQNDVVLVEEG-----  295
                RPEHL+ ++  D  +EG+V +VE+LGNETQ+++ +     +++YRQ D + VE G     
    Sbjct  284  RPEHLVEAEHGDAKIEGKVMIVEKLGNETQVYMNLKGSDSDVIYRQPDTLDVETGDTLTI  343
    
    Query  296  ------CHLFREDGTACRRLHKEPGV  315
                      CHLF  DG ACRRLHKE GV
    Sbjct  344  GIPAHRCHLFHSDGRACRRLHKEKGV  369
    
    Здесь нашлась последовательность с АС UPI0000F34B30 и ее ген.
  • Построение выравниваний
    Использовалась команда needle 1.fasta 2.fasta res.file. Аминокислотное выравнивание построилось достаточно хорошо с параметрами штрафов за открытие и продолжение гэпов по умолчанию. Нуклеотидное выравнивание получилось удовлетворительным только при параметрах 20 как штраф за открытие и 10 как штраф за продолжение гепов. Видно, что выравнивание неплохое, гепы только в двух местах - в самом конце, но это не так страшно, потому что последовательность из организма холерного вибриона длиннее последовательности кишечной палочки на 3 аминокислоты (371 АК в Escherichia coli и 374 АК в Vibrio cholerae). Также присутствуют гепы в 656 позиции кишечной палочки, причем не на три, а на два нуклеотида. Увы, добиться выравнивания без этих гепов не удалось (даж со штрафом 100 за открытие гепа в needle- параметрах). Выравнивание, которое выдает Blast, также содержит гепы в этих позициях. Поэтому, скорее всего, приведенное выравнивание - наилучший вариант. А объяснить гепы и, соотвстственно, сдвиг рамки можно, скорее всего, тем, что построить нуклеотидное выравнивание вообще достаточно сложно (практически любой программой). И дело тут не в needle, а в самой непростой задаче построения достаточно большого по размеру нуклеотидного выравнивания.
  • Перечислить, что может делать PAL2NAL.
    Pal2Nal - это программа, которая превращает выравнивание белковых последовательностей и соответствующие последовательности ДНК (или мРНК) в выравнивание кодонов. Программа автоматически "назначает" надлежащий кодон даже если в подаваемой на вход последовательности ДНК имеются несоответствия с белковой последовательностью или присутствуют UTRs, polyA tails. РolyA tails - полиаденилированные хвосты: мРНК, на которой происходит синтез белка, после кодирующей имеет небольшую некодирующую область AAUAAA - это и есть поли-а-хвост. UTRs - три нетранслируемых области (three prime untranslated region), участок мРНК, следующий после кодирующей области. Pal2Nal также может работать со сдвигами рамки (frame shifts)в подаваемой на вход последовательности, которая применима для анализа на псевдогены. Итоговое выравнивание кодонов может в дальнейшем быть подвергнута подсчету KS и KA. KA – число несинонимичных замен на 1 несинонимичный сайт. Ks – число синонимичных замен на 1 синонимичный сайт.
  • Построение выравнивания с разбивкой на кодоны.
    Выравнивания needle не сильно отличается от выдачи PAL2NAL - последовательность из холерного вибриона длинее последовательности из e.coli, и хвост последовательностей не выровнялся. Также в выравнивании needle есть гепы посередине, причем не на число, кратное трем, а на 5. Это не очень хорошо, потому что происходит сдвиг рамки считывания. Но в районе этих пяти гепов в последовательности вибриона в последовательности кишечной палочки тоже сть гепы, их 2. Следовательно, в сумме имеем сдвиг как раз на 3 нуклеотида. В выдаче PAL2NAL нет таких проблем. Гепы только в одном месте, их 6, сдвиг ровно на две аминокислоты. Из всего этого можно сделать вывод, что needle изначально не предназначен для выполнения такого рода задач, поэтому и справился с этим не очень хорошо, белковое выравнивание у него получилось гораздо лучше.
  • С помощью PAL2NAL получите значения Ka/Ks для сравниваемых генов
    	KS = 2.5961
    	KA = 0.2524
    	KA/KS = 0.0972
    
  • На основе полученных данных сделайте вывод о силе и направлении отбора.
    Т.к. значение KA/KS = 0.0972 < 1, следовательно, наблюдаем стабилизирубщий отбор.

    © Pouliakhina
    All rights reserved