Поиск гомологов белка CHEY_ECOLI в геномах родственных бактерий

Поиск гомологов белка CHEY_ECOLI в геноме Pasteurella multocida с помощью программы TBLASTN

Лучшая находка
AC записи EMBL AE006079
Координаты выравнивания в записи 8437-8072
Координаты CDS в записи 7748-8443
AC белка в UniProt Q9CNJ8
E-value находки 1e-12
Другие находки с E-value <0,01
AC записи в EMBL E-value находки
AE006226 4e-11
AE006218 2e-10
AE006055 2e-09
AE006182 4e-08
AE006175 2e-07
     Для поиска по данному геному были созданы индексные файлы.
        formatdb -i pm_genome.fasta -p F -n pm
	
     Далее был запущен поиск.
        blastall -p tblastn -d pm -i chey.fasta -e 0.01 -o chey.normnormout -F F
	
     Запись лучшей находки была получена следующим образом:
	entret embl:AE006079 >AE006079.embl	
	

Поиск гомологов белка CHEY_ECOLI в геномах Pasteurella multocida, Pseudomonas aeruginosa, Vibrio cholerae с помощью программы TBLASTN

     По трем геномам поиск производился аналогично:

	genpath=/home/export/samba/public/tmp                                               
	genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
	formatdb -i "$genomes" -n 3g -p F                                                   
	
	blastall -p tblastn -d 3g -i chey.fasta -o chey.3g
	
     Увеличение базы, по которой проводился поиск, привело к увеличению количества найденных гомологов с E-value меньше 0.01 (85 против 6). Кроме того, значение E-value бывшей лучшей находки тоже увеличилось (до 6e-09). Это означает, что вероятность найти данную последовательность тем больше, чем больше объем "случайного банка".

Поиск гомологов белка CHEY_ECOLI в геномах Pasteurella multocida, Pseudomonas aeruginosa, Vibrio cholerae с помощью программы BLASTN, или почему этого нельзя делать

     Мы попробовали найти гомологов белка CHEY_ECOLI в трех геномах с помощью BLASTN.

	blastall -p blastn -d 3g -i chey1.fasta -o chey3g.result
	
     Программа BLASTN с задачей не справилась. Она выдала множество записей, в которых есть маленькие участки, совпадающие на 100% с участком запроса. Лучший гомолог по результатам предыдущих поисков (AE006079) найден не был. Это весьма понятно - BLASTN для этого не предназначен. Он нужен для поиска точных совпадений, т.е. той же самой последовательности. Данный инструмент требует совпадения довольно длинного участка последовательности.

Сравнение программ Fasta и TBLASTN на примере поиска гомологов белка CHEY_ECOLI в геноме Vibrio cholerae

Характеристика Fasta TBLASTN
Координаты находки 7336-7705 7330-7704
Identity 66.757% 57%
     С помощью программы FASTA были найдены гомологи белка CHEY_ECOLI.
	fasta34 chey_gene2.fasta vc_genome.fasta 6
	
     Лучший гомолог получился тот же, что и при использовании TBLASTN. Характеристики находок с Ее результаты были сравнены с результатами TBLASTN

Некоторые особенности поиска с помощью Megablast

>AE006079 origin
tcatttcatctcgtcctgaaaatgaggCgaaaaacgatagcccgccccacgtaccGtttg
gatatagcgatcaaaaccatattGctcaaggcttttgcgtaagcgacgaatAtagctatc

>AE006079 modified
tcatttcatctcgtcctgaaaatgaggAgaaaaacgatagcccgccccacgtaccAtttg
gatatagcgatcaaaaccatattActcaaggcttttgcgtaagcgacgaatCtagctatc
	
     Особенностью Megablast является поиск точного совпадения длиной в 28 нуклеотидов. Примером этого служит следующий поиск. Был извлечен участок (AE006079 origin) последовательности из генома Pasteurella multocida. С помощью Megablast был проведен поиск по трем геномам: Pasteurella multocida, Pseudomonas aeruginosa, Vibrio cholerae.
	megablast -d 3g -i 2.txt -o 1e.txt
	
     Данная последовательность была найдена. Далее каждый 28-ой нуклеотид был заменен на другой. Поиск измененной последовательности (AE006079 modified) результатов не дал.

Поиск гомологов тРНК E.coli с помощью discontigous Megablast в геномах Pasteurella multocida, Pseudomonas aeruginosa, Vibrio cholerae

     Исходные последовательности тРНК E.coli были взяты из файла trna.txt. Программа discontigous Megablast в трех геномах нашла 26 разных гомолога (здесь были отфильтрованы общие находки; они считались общими только в случае их перекрывания).

        megablast -t 16 -W 11 -N 0 -d 3g -i trna.txt -o -e 0.01 tr.txt
	
Название последовательности Количество находок
AE005174_5568 tRNA 21
AE005174_7805 tRNA 2
AE005174_10294 tRNA 4


© Решетов Денис, 2005