Программы пакета BLAST для работы с нуклеотидными последовательностями


8.1 Поиск в геноме участков, кодирующих белки, похожие на заданный

С помощью программы tblastn пакета BLAST был произведен поиск гомологов белка YECD_ECOLI в геноме Salmonella typhimurium. Результаты поиска приведены в таблице.

Число находок с Е-value<0,001 1
Характеристика лучшей находки:
E-value находки 7e-89
Название геномной последовательности Salmonella typhimurium LT2, section 89 of 220 of the complete genome
Координаты выравнивания в найденной последовательности 195 - 758

8.2 Нахождение записи EMBL по последовательности с помощью программы BLASTN

Для нахождения записи EMBL по последовательности, найденой tblastn, с помощью blastn была использована реализация этой программы на сайте EBI (http://www.ebi.ac.uk/Tools/). Поиск был произведен по банку "EMBL standard prokaryote". Был найден участок генома бактерии Salmonella enterica subsp. enterica serovar Typhimurium str. LT2, описаный в записи AE006468 с координатами 1997208 - 1997771. Он описан в записи как ген yecD, с координатами 1997208 - 1997774. Продукт этого гена, вероятно, изохоризматаза ("putative isochorismatase"), сходная с гипотетическим белком E.coli AAC74937.1 (одна из записей EMBL, описывающих YECD_ECOLI).(участок поля FT записи с информацией о yecD)

8.3 Поиск гомологов с помощью программы BLASTN

С помощью программы blastn был произведен поиск гомологов белка YECD_ECOLI в геноме Salmonella typhimurium. Результаты поиска приведены в таблице.

Число находок с Е-value<0,001 1
Характеристика лучшей находки:
E-value находки 3e-15
Название геномной последовательности Salmonella typhimurium LT2, section 89 of 220 of the complete genome
Координаты выравнивания в найденной последовательности 495 - 674

Blastn нашел участок генома, содержащийся в находке tblastn для того же белка (YECD_ECOLI). Этот учаток короче найденного tblastn больше, чем на 300 нуклеотидов. Таким образом tblastn в данном случае было гораздо целесообразней использовать для поиска гомологов, чем blastn.

9.1 Работа с программой getorf пакета EMBOSS

Чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода нужно запустить команду:

getorf -sequence d89965.entret -table 11 -find 1 -minsize 30

-sequence - входной файл
-table - используемый код (11 - bacterial)
-find - тип рамки (1 - от старт-кодона до стоп-кодона)
-minsize - минимальная длина открытой рамки (в нуклеотидах).

Из 13 найденых рамок, 5-я рамка содержала аминокислотную последовательность, описанную в записи D89965 в СDS. 13-я - содержится в соответствующей записи Swiss-Prot (P0A7B8).

9.2 Поиск некодирующих последовательностей программой BLASTN

Для того, чтобы определить, сколько гомологов каждой из тРНК E.coli находит программа BLASTN в геномe бактерии Salmonella typhimurium было проделано следующее:

Потом сделал тоже самое для E-value<0.001. Результат импортировал в Excel. (trna.xls)

9.3 Поиск некодирующих последовательностей программой megablast

Был произведен поиск программами megablast и discontigous megablast, аналогичный 9.2 с теми же индексными файлами. Для этого были выполнены команды:

megablast -D 2 -m 9 -o trnaMega.out -d stg -i trna_ecoli.fasta
megablast -D 2 -m 9 -W 11 -t 16 -N 1 -o trnaDM.out -d stg -i trna_ecoli.fasta

-D - определяет вид выходных файлов (2 - стандартный для программ пакета BLAST)
-W 11 -t 16 -N 1 - определяют одну из форм запуска discontigous megablast с длиной слов 11, по некодирующей части генома.
-o -d -i - тоже самое, что и для blastall (выходной файл, имя индексных файлов и входной файл соответственно)

Далее с помощью скриптов (megablast и discontigous megablast) было подсчитано число находок. Данные экспортировались в Excel. (trna.xls)

9.4 Анализ результатов

Обычно, число находок megablast меньше числа находок blastn, это объясняется тем, что blastn ищет слова длины 11, а megablast - 28. Например blastn нашел вероятно гомологичную последовательность AE008893 [17544:17565], а megablast - нет. Длина находки - 22 нуклеотида, а длина "слова" megablast - 28, а полностью идентичного участка длины 28 нуклеотидов, соответствующего участку из генома E.coli, содержащего этот фрагмент не нашлось. На этом же участке сходство этих последовательностей 100% (с помощью программы Needle было построено выравнивание этих участков): файл

AE008893           1 ---gatatagctcagttggtagagc-------------------------     22
                        ||||||||||||||||||||||                         
thrW_ecoli         1 gccgatatagctcagttggtagagcagcgcattcgtaatgcgaaggtcgt     50

AE008893          22 --------------------------     22
                                               
thrW_ecoli        51 aggttcgactcctattatcggcacca     76
		

Аннотация гена Salmonella typhimurium, содержащего найденый участок: файл

FT   gene            368806..368878
FT                   /gene="thrW"
FT                   /locus_tag="STM0323"
FT   tRNA            368806..368878
FT                   /gene="thrW"
FT                   /locus_tag="STM0323"
FT                   /product="tRNA-Thr"
		

Назад

2009 ©