Программы пакета BLAST для работы с нуклеотидными последовательностями.



  1. Работа с программой getorf пакета EMBOSS
  2. Создадим файл с записью D89965 банка EMBL: D89965

    Запустим программу getorf так, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода.

    Командную строку: getorf -minsize 31 -table 11 -find 1
    В результате был получен файл: D89965.orf

    Из найденных открытых рамок соответствует приведённой в записи CDS (163-435) следующая рамка:

    >D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.
    MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
    FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
    LTPWLRIQSTNPVQKYGA
    

    Программа BLASTN позволяет установить, что пятая рамка считывания (19-432) соответствует данному белку:

    >dbj|D89965.1| Geo Rattus norvegicus mRNA for RSS, complete cds
    Length=448
    
     Score =  289 bits (739),  Expect = 2e-76, Method: Compositional matrix adjust.
     Identities = 137/138 (99%), Positives = 138/138 (100%), Gaps = 0/138 (0%)
     Frame = +1
    
    Query  1    MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ  60
                +VFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ
    Sbjct  19   IVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ  198
    
    Query  61   FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE  120
                FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE
    Sbjct  199  FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE  378
    
    Query  121  LTPWLRIQSTNPVQKYGA  138
                LTPWLRIQSTNPVQKYGA
    Sbjct  379  LTPWLRIQSTNPVQKYGA  432
    

    Программа BlASTP позволяет установить, что hslv_ecoli.entret банка Swiss-Prot соответствует 13 рамка считывания (375-1):
    >sp|P0A7B8.2|HSLV_ECOLI  RecName: Full=ATP-dependent protease hslV; AltName: Full=Heat 
    shock protein hslV
    
     Score =  253 bits (647),  Expect = 2e-67, Method: Compositional matrix adjust.
     Identities = 125/125 (100%), Positives = 125/125 (100%), Gaps = 0/125 (0%)
    
    Query  1    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL  60
                MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
    Sbjct  1    MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL  60
    
    Query  61   FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL  120
                FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
    Sbjct  61   FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL  120
    
    Query  121  IAIGS  125
                IAIGS
    Sbjct  121  IAIGS  125
    


  3. Поиск некодирующих последовательностей программой BLASTN

  4. В файле trna_ecoli.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Задача — определить, сколько гомологов каждой из тРНК находит программа BLASTN в геноме Pasteurella multocida.

    Для начала запустим программу BLASTN:

    blastall -p blastn -d pm -i trna_ecoli.fasta -m8 -o trna_blastn.fasta

    В результате получился файл: trna_blastn.fasta
    Количество находок именно для данной последовательности, например для asnV:
    grep "asnV" seq.txt -c
    На выходе получаем 1 находку.
    Далее требовалось получить колонку из названий всех входных последовательностей.
    Введённая команда:

    grep ">" trna_ecoli.fasta > names.txt

    Затем файл names.txt был импортирован в Excel.
    Скрипт из команд, необходимых для получения колонки из числа находок для каждой последовательности: script 1

    Для того, чтобы найти количество гомологов тРНК, удовлетворяющих порогу E_Value=0.001, была введена команда:

    blastall -p blastn -d pm -i trna_ecoli.fasta -m8 -e 0.001 -o trna_blastn_e.fasta

    Выходной файл: trna_blastn_e.fasta

    Составленный скрипт: script 2

    Все результаты занесены в таблицу: скачать

  5. Поиск некодирующих последовательностей программой megablast
  6. Повторим предыдущее задание, используя вместо BLASTN сначала обычный megablast, а затем разрывный ("discontigous") megablast.

    Для поиска гомологов программой MEGABLAST была введена команда:

    megablast -d pm -i trna_ecoli.fasta -m8 > megablast.fasta
    Выходной файл: megablast.fasta

    Для поиска программой discontigous megablast:

    megablast -d pm-i trna_ecoli.fasta -m8 -D 2 -t 16 -W 11 -N 1 > dismegablast
    Выходной файл: dismegablast.fasta

    Теперь распишем значение параметров:

    -D - тип выдачи (-D 2 - стандартная выдача BLAST)
    -t - длина слова, которое будет искаться (есть разрывы)
    -W - длина слова, по которому будет вестись поиск (разрывов нет)
    -N - тип матрицы

    Скрипты для поиска количества находок для данной последовательности: script 3 и script 4

    Все результаты также занесены в таблицу: скачать

  7. Анализ результатов
  8. В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST выберем пару из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка: valV и AE006104.
    При поиске при помощи blastn E-value находки AE006104 равен 3e-05.
    Соответствующее выравнивание BLASTN:
    >AE006104 Pasteurella multocida subsp. multocida str. Pm70 section 71
                of 204 of the complete genome.
              Length = 10192
    
     Score = 42.1 bits (21), Expect = 3e-05
     Identities = 21/21 (100%)
     Strand = Plus / Minus
    
                                     
    Query: 8    tagctcagttggttagagcac 28
                |||||||||||||||||||||
    Sbjct: 8747 tagctcagttggttagagcac 8727
    

    Причем E006104 находится программой BLASTN и не находится программой megablast.
    Причина, как мне кажется, в том, что очень маленькая длина выравнивания (20 нуклеотидов: 8747-8727)
    Выровняем вырезанные последовательности при помощи needle:
    #=======================================
    #
    # Aligned_sequences: 2
    # 1: AE006104
    # 2: valV
    # Matrix: EDNAFULL
    # Gap_penalty: 10.0
    # Extend_penalty: 0.5
    #
    # Length: 77
    # Identity:      21/77 (27.3%)
    # Similarity:    21/77 (27.3%)
    # Gaps:          56/77 (72.7%)
    # Score: 105.0
    # 
    #
    #=======================================
    
    AE006104           1 -------tagctcagttggttagagcac----------------------     21
                                |||||||||||||||||||||                      
    valV               1 gcgttcatagctcagttggttagagcaccaccttgacatggtgggggtcg     50
    
    AE006104          21 ---------------------------     21
                                                    
    valV              51 ttggttcgagtccaattgaacgcacca     77
    
    
    #---------------------------------------
    #---------------------------------------
    

    Полное совпадение.
    В записи EMBL, описывающей геном, участок: 94-114
    Он является частью гена tRNA-Ile: 86-163, кодирующего тРНК, участвующего в переносе изолейцина.