Зная аминокислотную последовательность белка PYRD_Ecoli из Escherichia coli K-12. Можно определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.
Для этого создаются индексные файлы пакета BLAST для поиска
по заданному геному:
formatdb -i pm_genome.fasta -p f -n pmu
Где прараметр
-i = файл для которого создаются индексные файлы.
-p = тип файла (t- белоковый, f-нуклеодитный)
-n = базовое имя
Далее при помощи программы tblastn из пакета BLAST проведиться поиск гомологов белка в неаннотированных нуклеотидных последовательностях с порогом E-value 0,001.
blastall -p tblastn -d pmu -i pyrd_prot.fasta
-o pyr_D.txt -e 0.001
Где прараметр
-p = имя программы из пакета BLAST
-d = базовое имя индексных файлов
-i = имя файла,содержащегог, то что будем искать в фаста-формате.
-o= имя выходного файла
-e=порог E-value
Число находок с Е-value<0,001 | 1 | |
Характеристика лучшей находки: | ||
E-value находки | e-113 | |
AC соответствующей записи EMBL | AE006098 | |
Координаты выравнивания(-ий) в записи EMBL | 5999-4989 | |
Координаты CDS в записи EMBL (если есть) | complement(4983..6002) | |
AC UniProt для этого CDS (если есть) | UniProtKB/Swiss-Prot:P57858 |
Создаются индексные файлы BLAST для поиска по всем трем геномам сразу.
Создаются переменные описывающие путь к файлам , для которых будут создаваться индексные.
genpath=/home/export/samba/public/y07/Term3/EMBL
genomes="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta"
Создание самих индексных файлов и поиск.
formatdb -i "$genomes" -p f -n all
blastall -p tblastn -d all -i pyrd.fasta -o all.txt -e 0.001
Число находок с Е-value<0,001 | 3 | |||
Название организма: | Salmonella typhimurium LT2 | Pasteurella multocida | Xanthomonas campestris | |
E-value находки | e-178 | e-113 | 3e-85 | |
AC соответствующей записи EMBL | AE006468 |AE008746| | AE006098 | AE008922 |AE012280 | |
Координаты выравнивания(-ий) в записи EMBL | 184-1191 | 5999-4989 | 9544-8540 | |
Координаты CDS в записи EMBL (если есть) | 184..1194 | complement(4983..6002) | complement(8492..9547) | |
AC UniProt для этого CDS (если есть) | UniProtKB/Swiss-Prot:P25468 | UniProtKB/Swiss-Prot:P57858 | UniProtKB/Swiss-Prot:Q8P9R0 |
Таким образом во всех 3х геномах были найдены участки, кодирующие сходные заданному белки.
Создаeм fasta-файл с последовательностью из генома E.coli, кодирующей белок pyrD .(для этого надо взять одну из записей EMBL, на которую ссылается ваша запись Swiss-Prot, найти в ней координаты соответствующей CDS и вырезать последнюю программой seqret в отдельный файл).
И задаем поиск гомологов этого гена в трёх геномах программой
BLASTN.
1)
blastall -p blastn -d all -i gene_pyrd.fasta -o all_blastn.txt -e 0.001
Поиск гомологов с e-value меньше 0.01.Результат.
2)
blastall -p blastn -d all -i gene_pyrd.fasta -o all_blastn2.txt
Поиск гомологов без органичения e-value .Результат.
Для обоих поисков лучшей является находка из Salmonella typhimurium LT2 (AE008746 ,AE006468 ,AE008746)
, имеющая E-value 0.0.
Эта же находка являлась лучшей и в поске по белковой последовательности, хотя и с несколько худшим
E-value (e-178).
Аннотация соответствующего фрагмента генома Salmonella typhimurium LT2 приведена здесь
Надо заметить, что фрагмент ,кодирующий белок P0A7E1 в Е. coli имеет схожую
аннотацию (ген pyrD) . В частности одинаковые ссылки в InterPro, таким образом эти участи имеет не
только сходную нуклеотидную , белковую последовательности , но и сходные аминокислотные мотивы
в последней.
Последующие находки имееют очень большое E-value, поэтому делать вывод о том, кодируют ли эти участи схожие белки нельзя.Например, вторая по счету находка во втором задании найдена вообще не была, а третья находка была найдена шестой с E-value 2.4 против 3e-85 при поиске tblastn. Это происходит из-за того, что 1 аминокислоту могут кодировать 3 разных триплета , т.е схожие белковые последовательности могут кодироваться довольно далекими нуклеотидными последовательностями. А программа blastn ищет заданную последовательность в банке, поэтому вторая находка из 2 упр. вообще не была найдена, а 3 имеет плохой E-value .Тот факт, что наиболее похожую нуклеотидную последовательность к E.coli имеет Salmonella typhimurium неудивителен, т.к она согласно филогенетическому дереву бактерий располагается к E.coli гораздо ближе, чем Pasteurella multocida и Xanthomonas campestris.
Главная страница Третий семестр
©Петрова Светлана,2008