учебный сайт Вероники Владыкиной

BLAST (продолжение)

на главную
1 семестр
2 семестр
3 семестр
проекты
официальный сайт ФББ
  1. Работа с программой getorf пакета EMBOSS

  2. для того, чтобы запустить программу getorf так, чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода, используем команду:
    tfm getorf -minsize 31 - table 11 -find 1
    (-minsize задает мин длину последовательности, -find говорит о том, что ищем трансляции рамок от старт до стоп-кодона, а -table 11 задает бактериальный код).

    С помощью программы blastp мы легко определяем, что приведенной в CDS записи соответствует 5 открытая рамка считывания.
    Запись EMBL ссылается на запись в SwissProt c ID P0A7B8. Опять же с помощью blastp узнаем, что этой записи соответствует 13-я открытая рамка считывания.
    (файлы выравниваний CDS_ramka.blast и SW_ramka.blast соответственно)

  3. Поиск некодирующих последовательностей программой BLASTN

  4. запустим программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — отформатированный при выполнении предыдущего практикума геном бактерии. с помощью команды grep и табличного вывода blastn, получим файл, в котором укажем название белка, количество находок blastn и количество таких находок с E-value<0.001.
    (файл скрипта, полученная таблица)

  5. Поиск некодирующих последовательностей программой megablast

  6. Теперь для поиска гомологичных последовательностей воспользуемся программой megablast. Для этого пишем в командной строке:
    megablast -D 2 -d pm -i trna_ecoli.fasta -o ec_pm.megablast -m 8 (-D 2 дает стандартный выход BLAST).
    Далее с помощью все того же скрипта узнаем количество найденных гомологов и отправляем эти данные в нашу таблицу. Теперь попробуем поработать с разрывным megablast. Для этого введем в командную строку:
    megablast -D 2 -d pm -i trna_ecoli.fasta -o ec_pm.dmegablast -m 8 -N 1 -t 16 -W 12(-D 2 дает стандартный выход BLAST, -t 16 дает по сути длину слова+число разрывов, -W 12 дает собственно длину слова(совпадающего), для ситуации с разрывами допустимы значения 11 и 12, -N 0 показывает используемый тип разрыва.0 означает кодирующий, т.е как в обычной последовательности не обращают внимание на каждый третий нуклеотид, а 1 означает некодирующие последовательности, в которых нет указанной закономерности)
    Результаты также отправим в нашу таблицу.
  7. Анализ результатов


  8. AE006104 - находка при поиске с помощью blastn с E-value 3e-05 (вполне себе приличное значение). Megablast его не находит. В чем может быть причина? В данном случае она вполне ясна: длина участка выравнивания всего-то 20 нуклеотидов (8747-8727). Для blastn это очень даже отличный результат - получить такое выравнивание при его длине слова 3. Но для Megablasta, видимо, весьма сомнительное (с заданной мной длиной слова 16).
    Данный гомологичный участок был вырезан и выровнен с соответствующиим белком при помощи программы needle (выравнивание).
    Характеристики выравнивания:
     Length: 77                   
    Identity:      21/77 (27.3%) 
    Similarity:    21/77 (27.3%) 
    Gaps:          56/77 (72.7%) 
    Score: 105.0                 
    
    
    Прекрасное выравнивание. полное совпадение.

    в записи EMBL, описывающей геном этот участок (94..114) является частью гена tRNA-Ile(86..163), кодирующего тРНК, переносящую изолейцин.

Владыкина 2008