Лучшая находка
| Другие находки с E-value <0,01
|
Для поиска по данному геному были созданы индексные файлы.formatdb -i pm_genome.fasta -p F -n pmДалее был запущен поиск. blastall -p tblastn -d pm -i chey.fasta -e 0.01 -o chey.normnormout -F FЗапись лучшей находки была получена следующим образом: entret embl:AE006079 >AE006079.embl |
По трем геномам поиск производился аналогично:
genpath=/home/export/samba/public/tmp genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta" formatdb -i "$genomes" -n 3g -p F
blastall -p tblastn -d 3g -i chey.fasta -o chey.3gУвеличение базы, по которой проводился поиск, привело к увеличению количества найденных гомологов с E-value меньше 0.01 (85 против 6). Кроме того, значение E-value бывшей лучшей находки тоже увеличилось (до 6e-09). Это означает, что вероятность найти данную последовательность тем больше, чем больше объем "случайного банка".
Мы попробовали найти гомологов белка CHEY_ECOLI в трех геномах с помощью BLASTN.
blastall -p blastn -d 3g -i chey1.fasta -o chey3g.resultПрограмма BLASTN с задачей не справилась. Она выдала множество записей, в которых есть маленькие участки, совпадающие на 100% с участком запроса. Лучший гомолог по результатам предыдущих поисков (AE006079) найден не был. Это весьма понятно - BLASTN для этого не предназначен. Он нужен для поиска точных совпадений, т.е. той же самой последовательности. Данный инструмент требует совпадения довольно длинного участка последовательности.
|
С помощью программы FASTA были найдены гомологи белка CHEY_ECOLI.fasta34 chey_gene2.fasta vc_genome.fasta 6Лучший гомолог получился тот же, что и при использовании TBLASTN. Характеристики находок с Ее результаты были сравнены с результатами TBLASTN |
Некоторые особенности поиска с помощью Megablast
>AE006079 origin tcatttcatctcgtcctgaaaatgaggCgaaaaacgatagcccgccccacgtaccGtttg gatatagcgatcaaaaccatattGctcaaggcttttgcgtaagcgacgaatAtagctatc >AE006079 modified tcatttcatctcgtcctgaaaatgaggAgaaaaacgatagcccgccccacgtaccAtttg gatatagcgatcaaaaccatattActcaaggcttttgcgtaagcgacgaatCtagctatc |
Особенностью Megablast является поиск точного совпадения длиной в 28 нуклеотидов. Примером этого служит следующий поиск. Был извлечен участок (AE006079 origin)
последовательности из генома Pasteurella multocida. С помощью Megablast был проведен поиск по трем геномам: Pasteurella multocida,
Pseudomonas aeruginosa, Vibrio cholerae. megablast -d 3g -i 2.txt -o 1e.txtДанная последовательность была найдена. Далее каждый 28-ой нуклеотид был заменен на другой. Поиск измененной последовательности (AE006079 modified) результатов не дал. |
Исходные последовательности тРНК E.coli были взяты из файла trna.txt.
Программа discontigous Megablast в трех геномах нашла 26 разных гомолога (здесь были отфильтрованы общие находки; они считались общими только
в случае их перекрывания).
megablast -t 16 -W 11 -N 0 -d 3g -i trna.txt -o -e 0.01 tr.txt
Название последовательности | Количество находок |
AE005174_5568 tRNA | 21 |
AE005174_7805 tRNA | 2 |
AE005174_10294 tRNA | 4 |