Программы пакета BLAST для работы с нуклеотидными последовательностями

 

Скачать отчётный Excel-файл trna.xls.

1. Работа с программой getorf пакета EMBOS

Необходимо получить набор трансляций всех открытых рамок последовательности из записи D89965 банка EMBL длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода. Для начала получаю последовательность d89965.fasta из данной записи. Затем выполняю команду:

getorf -minsize 30 -find 1 -table 11      
Finds and extracts open reading frames (ORFs)      
Input nucleotide sequence(s): d89965.fasta      
protein output sequence(s) [d89965.orf]:  

Пятая рамка соответствует приведенной в записи CDS, а тринадцатая - записи Swiss-Prot (P0A7B8).

2. Поиск некодирующих последовательностей программой BLASTN

Необходимо определить, сколько гомологов каждой из тРНК, проаннотированных в полном геноме E.coli K12, находит программа BLASTN в геноме родственной бактерии Pasteurella multocida (pm_genome.fasta).

blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 -o trna_homologs.txt
grep ">" trna_ecoli.fasta >> trna_ecoli.txt

Чтобы узнать количество гомологов запущу скрипт, в результате получу файл amount.txt.

Вновь произведу поиск, но в этот раз укажу порог E-value < 0.001:

blastall -p blastn -d pm -i trna_ecoli.fasta -m 8 -o trna_homologs_e_.txt -e 0.001

Скрипт дал файл amount2.txt.

3. Поиск некодирующих последовательностей программой megablast

Ту же задачу проделаю при помощи программы megablast:

megablast -d pm -i trna_ecoli.fasta -m 8 -o trna_homologs_mb.txt

Скрипт дал файл amount3.txt.

И с помощью discontigous megablast:

megablast -d pm -i trna_ecoli.fasta -m 8 -D 2 -t 18 -W 11 -N 1 -o trna_homologs_dmb.txt

Скрипт дал файл amount4.txt.

4. Анализ результатов

Из выходного файла trna_homologs_e_.txt выбрал пару lysT - AE006136 (2477-2402) из tRNA E.coli и найденного в геноме бактерии Pasteurella multocida гомологичного участка. Данная находка нашлась программой BLASTN и не нашлась программой megablast. Вероятно, это связано с тем, что megablast ищет слова длиной в 28 букв в геноме Pasteurella multocida, а blastn - в 11 букв.

Вырежу гомологичный участок в отдельный файл командой seqret -sask:

seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): pm_genome.fasta:AE006136
Begin at position [start]: 2402
End at position [end]: 2477
Reverse strand [N]: y
output sequence(s) [ae006136.fasta]:
 		  

Выделю исходную последовательность также в отдельный файл lysT.fasta.

Выровняю две эти последовательности программой needle:

needle lysT.fasta ae006136.fasta lysT.needle
#=======================================
#
# Aligned_sequences: 2
# 1: lysT
# 2: AE006136
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 76
# Identity:      69/76 (90.8%)
# Similarity:    69/76 (90.8%)
# Gaps:           0/76 ( 0.0%)
# Score: 317.0
# 
#
#=======================================
lysT               1 gggtcgttagctcagttggtagagcagttgacttttaatcaattggtcgc     50
 		              ||||||||||||||||.||||||||||..|||||||||||..|||||||.
AE006136           1 gggtcgttagctcagtcggtagagcagcggacttttaatccgttggtcga     50
lysT              51 aggttcgaatcctgcacgacccacca     76
 		              |||||||||||||.||||||||||||
AE006136          51 aggttcgaatccttcacgacccacca     76
 	      
#---------------------------------------
#---------------------------------------

Как мы видим, процент идентичности составил 90,8%. Предположение о том, что данная находка не нашлась программой megablast из-за того, что та ищет слова длиной 28, верно, так как в данном выравнивании нет 28 подряд идущих совпавших нуклеотидов. А вот discontigous megablast выдал данную находку, так как производил поиск словам длиной 18.

Как проаннотирован гомологичный участок в записи EMBL, описывающей геном бактерии?

 

Михальченко Алексей © 2008-2009