Программы пакета BLAST для работы с нуклеотидными последовательностями

Поиск открытых рамок считывания.

Открытой рамкой считывания считаем отрезок последовательности ДНК не содержфщий стоп-кодонов и имеющий достаточную длинну.

Получить все открытые рамки для записи D89965 банка EMBL можно при помощи команды:
getorf d89965.fasta d89965_orf.fasta -find 1 -table 11 -minsize 30

Где параметры :
-find = принимает параметра от 0 до 6.

          0 транслирует рамку между стоп кодонами.
          1 транслирует рамку между старт и стоп кодоном.
          2 ищет нуклеотидную  рамку между стоп кодонами.
          3 ищет нуклеотидную  рамку между старт и стоп кодоном.
          4 нуклеотидная рамка фланкирующая к старт кодону
          5 нуклеотидная рамка фланкирующая к инициаторному стоп кодону
          6 нуклеотидная рамка фланкирующая к завершающему стоп кодону

Фланкирующая последовательность ДНК характеризует любую нуклеотидную последовательность, расположенную рядом ("по соседству", "на фланге") с другой последовательностью; различают 5'- и 3'-Фланкирующие последовательности, т. е. прилегающие к основной последовательности, соответственно, с 5'- и 3'-конца полинуклеотидной цепи .

-table = принимает параметра от 0 до 23.Коды для разных групп организмов (11 - для бактерий)
-minsize = минимальная длина рамки(в нуклеотидах)

Для определения ОRF, объявим выходной файл программы getorf базой данных, проиндексируем ее, а затем пустим по ней поиск белковой последовательности ,записанной в поле cds банка EMBL , а затем белковой последовательности из банка Swiss-Prot , на которую ссылается EMBL (UniProtKB/Swiss-Prot:P0A7B8)

formatdb -i d89965_orf.fasta -p t -n orf
blastall -p blastp -d orf -i cds.fasta -o cds_result.txt
blastall -p blastp -d orf -i swiss.fasta -o swiss_result.txt

Как видно из полученных файлов оба рассматривают в кандидаты на ОRF либо 5 либо 13 рамку. Но из выравниваний следует , что для cds это безусловно 5 , а для Swiss-Prot 13. Хотя, вообще-то они должны совпадать , т.к сds кодирует часть белка. Учитывая тот факт, что Swiss-Prot является курируемой БД,и что e-value для 13 рамки немного лучше, а также потому, что совпадение идет с первой позиции - будем считать именно ее правильной.

2.Поиск некодирующих последовательностей программой BLASTN.

Задача : определить сколько гомологов каждой из тРНК E.coli находит программа BLASTN в трёх геномах других бактерий (Salmonella typhimurium LT2, Pasteurella multocida, Xanthomonas campestris)

1. Запускаем программу бласт по банку из 3 геномов (без и с указанием порога E-value)
blastall -p blastn -d all -i trna_ecoli.fasta -o trna -m 9
blastall -p blastn -d all -i trna_ecoli.fasta -o trna_ev -m 9 -e 0.001

2.Скрипт(для 1го случая) , выдающий число находок для каждой последовательности.Сделать скрипт исполняемым и запустить его можно при помощи команд

chmod +x trna_script.scr
./trna_script.scr > trna_result.txt
Результат trna.xls

3.Поиск некодирующих последовательностей программой megablast.

1.Поиск гомологичных тРНК при помощи программы megablast.
megablast -d all -i trna_ecoli.fasta -o trna_megablast -m 9

2.Поиск гомолочичных тРНК при помощи программы discontigous megablast.<>br megablast -d all -i trna_ecoli.fasta -o trna_disc_megablast -m 9 -D 2 -t 18 -W 11 -N 1

Где параметры :
-D = тип выдачи результатов (2-стандартная выдача бласт)
-t = длина последовательности (с учетом "разрывов"), при этом -W может быть 11 или 12.
-W= длина слова . Если W кратно 4 ,это гарантирует нахождение наилучших совпадений для длины слова W+3 . Так же могут быть найдены совпадения,для длины меньше заданной W (хотя это и не гарантируется). Eсли W не кратно 4 ,то будет рассмотрено ближайшее кратное 4 значение .( по формуле 4*i+2 и 4*i)

4. Анализ результатов.

Рассмотрим тРНК trpT.Программа BLASTN нашла гомологичный участок в геноме Xanthomonas campestris, а megablast не отыскала данного участка.

Аннотация данного участка в записи EMBL.
AC AE012187 AE008922
DE Xanthomonas campestris pv. campestris str. ATCC 33913, section 95 of 460 of the complete genome.
OS Xanthomonas campestris pv. campestris str. ATCC 33913
ID AE012187_7; parent: AE012187
AC AE012187; AE008922;
FT tRNA 2953..3028
FT /gene="XCC0881"
FT /product="tRNA-Trp"
FT /note="Found by tRNAscan"

Соответсвенно найденный гомологичный участок, согласно аннотации кодирует tRNA-Trp , т.е такую же тРНК как и у E.coli. Cоответственно эти участки являются гомологичными, т.е программа BLASTN нашла верно.
Рассмотрим выравнивание данных гомологичных участков у E.coli и Xanthomonas campestris.


trpt_ecoli         1 aggggcgtagttcaattggtagagcaccggtctccaaaaccgggtgttgg     50
                     |.|...||||.||||||||.||||||.|||||||||||||||...|||||
trpt_xca           1 acgccagtagctcaattggcagagcagcggtctccaaaaccgcaggttgg     50

trpt_ecoli        51 gagttcgagtctctccgcccctgcca     76
                     |.|||||||||.||||...|.|||||
trpt_xca          51 gggttcgagtccctcctggcgtgcca     76

Характеристики выравнивания:
ength: 76
Identity: 60/76 (78.9%)
Similarity: 60/76 (78.9%)
Gaps: 0/76 ( 0.0%)
Score: 236.0

Алгоритм BLAST ищет слова , некоторой установленной длины W cо счетом выше некоторого порога.Сначала BLAST выбирает слово из последовательности запроса и продолжает его удлинять в обоих направлениях, сопостовляя с целевой последовательностью о одновременно подсчитывает счета совпадений и несовпадений и штафы за открытие и продление гэпов.BLAST продолжает отдельные пары совпадающих слов до тех пор, пока не получит выравнивание с наилучшим счетом.
Разница в алгоритмах BLASTN и megablast в том, что BLASTN ищет слово длины 11 , а megablast 28 (что делает его более быстрым).Соответственоо программа megablast не обнаружила гомологичную тРНК ,т.к. у неё с исходной нет идентичного участка длины 28 (что видно из выравнивания). Да и вообще эта программа приспособлена для быстрого поиска заданной последовательности, а не ее гомологов.
Что касается программы discontigous megablast , то она как следует из таблицы лучше справляется с поиском гомологов, т.к в слове заданной длины не обязаны совпадать все позиции- чередование совпадений и несовпадений задается определенным правилом в опциях программы.

Fasta35

1. Файл trna_ecoli.fasta расфасовывается на отдельные файлы ( по знаку ">") утилитой split.exe
2.Геномы 3 бактерий сливаются при помощи команд
genpath=/home/export/samba/public/y07/Term3/EMBL
cat $genpath/*_genome.fasta > genomes.fasta
3. Пишем скрипт scr.scr и файл in cодержащий ответы на интерактивные вопросы. 4.Запускаем
chmod +x scr.scr
cat in | ./scr.scr > result
5.При таком способе минусом является тот факт, что выравнивания неизбежно попадают в файл result (не смотря на n в файле in).
Далее мне нужны строки ,только с низким порогом е-value (меньше 0.001),такое значение записывается при помощи "е" , но этот же символ повторяется в стоках содержащих выравниваение,поэтому в файле result заменим "1>>>" на ">[f]", а затем
grep \[rf]\] > result2
т.е избавимся от лишних "е" и сохраним имена тРНК
6.Файл result2 расфасуем на отдельные файлы при помощи split.exe. Полученные файлы будут иметь именем все что в строке после ">",т.е имя тРНК и кое-что лищнее.Для удобства групповым переименование (которое позволяет TotalCommander) оставим только имя тРНК в качестве названия.
7.Напишем скрипт считающий кол-во найденных гомологов и запустим его.
сhmod +x scr2.scr
./scr2.scr > out.txt

Главная страница Третий семестр