Материалы к практикуму 7

Разновидности BLAST

НазваниеПробная
посл-ть
 Банк Для чего служитПримечание
BLASTNНКНК
  1. Поиск последовательности в банке
  2. Предсказание транскрибируемых участков (проба — участок генома; банк — транскрипты)
Непригоден для поиска сколько-нибудь удаленных гомологов
BLASTPБелокБелки Поиск гомологов 
BLASTXНКБелки Предсказание кодирующих участковПроба транслируется в 6 рамках
TBLASTNБелокНК Поиск неаннотированных гомологов белкаБанк транслируется в 6 рамках
TBLASTXНКНК Поиск гомологов к кодирующим участкам 6x6=36. Работает долго. Применяется редко.

  Про программы пакета BLAST и их установку на своем компьютере читайте здесь.

 

Подсказки к заданиям

Для выполнения заданий Вам понадобится не менее 5Mb дискового пространства. Рекомендуется проверить, не превысили ли Вы квоту, и если да, то почистить свой диск.

  1. Индексные файлы создаются программой formatdb.

    Зайдите на kodomo-count, перейдите в свою рабочую директорию и вызовите подсказку к программе formatdb, набрав

     formatdb -
    
    (если подсказка не умещается в окне, организуйте конвейер к программе more:
     formatdb - |more
    
    внутри программы more пользуйтесь клавишами "пробел" и "Enter". Другой вариант — перенаправить выдачу в файл, пользуясь спецсимволом ">").

    Вам понадобятся опции -i, -p и -n, остальные не нужны. Изучите их смысл и придайте им правильные значения. Программа formatdb создает в текущей директории три файла с расширениями nhr, nin и nsq; первая часть имен этих трех файлов одинаковая, это и есть "Base name for BLAST files". Рекомендуется сделать это "базовое имя" коротким (например, "vc" для генома V.cholerae).

    Для запуска программы командная строка должна содержать для каждого из задаваемых параметров его название, а затем после пробела — его значение. Это стандартный способ указывать значения параметров в консольных приложениях UNIX. Выглядит это так:

    program -param1 value1 -param2 -value2
    
    (параметров может быть сколько угодно; их порядок, как правило, неважен).

    В качестве входного файла укажите полный путь к fasta-файлу с нужным геномом.
     

  2. Чтобы запустить одну из программ поиска гомологов пакета BLAST, нужно иметь в своей директории файл с последовательностью в fasta-формате и индексные файлы "банка последовательностей". Все 5 программ BLASTP, BLASTN, BLASTX, TBLASTN, TBLASTX реализованы как опции единой прогаммы blastall.

    Запустите blastall без параметров, чтобы получить подсказку — список параметров программы. Вам понадобятся следующие параметры: -p (его возможные значения — blastp, blastn и т.д., строчными буквами!), -d (базовое имя индексных файлов), -i (входной файл), -o (выходной файл), и, возможно, -e (см. также BLAST help).

    Запустите поиск и просмотрите выходной файл. Поскольку наши геномы — выборки из EMBL, выходной файл будет содержать для каждой находки номера доступа (AC) соответствующих EMBL-записей. Полную запись можно добыть стандартными способами (entret или SRS).
     

  3. В этом задании основная проблема — передать программе formatdb в качестве входа сразу три файла. Для этого значением соответствующего параметра (-i) должны быть три (полных!) имени файлов, разделенные пробелами. Если просто ввести имена файлов через пробелы после -i, то bash передаст их программе как три отдельных параметра, и они не будут правильно восприняты. Чтобы пробелы были переданы программе, их следует защитить обратной косой чертой или кавычками.

    Набирать получившуюся длинную командную строку неудобно; к тому же приходится трижды набирать один и тот же путь /home/export/samba/public/tmp. Рекомендуется воспользоваться предоставляемой bash возможностью заводить текстовые переменные.

    Заведите переменную "genpath" (имя может быть и другим), выполнив команду:

    genpath=/home/export/samba/public/tmp
    
    В этом выражении не должно быть никаких пробелов. Затем заведите другую переменную:
    genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
    
    Здесь мы пользуемся тем, что в двойных кавычках (в отличие от одинарных), знак $ сохраняет специальное значение — вызова содержимого переменной.

    Теперь можно запускать formatdb:

    formatdb -i "$genomes" -n 3g -p F
    

    При запуске TBLASTN не забудьте дать выходному файлу иное имя, чем в прошлый раз; желательно (как и всегда), чтобы имя тем или иным образом намекало на содержимое файла.


Индексные файлы для трех геномов понадобятся Вам на следующем занятии. Однако если ваша квота превышена, придется уничтожить их, а когда они понадобятся — создать заново.