На страницу III-ого семестра
Для решения данной задачи наиболее подходящей программой является TBLASTN, поскольку она предназначена для поиска гомологов данного белка в неаннотированных нуклеотидных последовательностях. Для имеющегося неаннотированного генома Pasteurella multocida (...) с помощью программы formatdb были созданы индексные файлы. Команда для создания индексных файлов выглядит следющим образом:
formatdb -p F -n pm -i pm_genome.fasta
После создания индексных файлов запустили программу tblastn:
blastall -p tblastn -d pm -i BIOB.fasta -o tblastn.txt
По результатам работы программы заполнили следующую таблицу.
Поиск гомологов xxx_Ecoli | Геном Pasteurella multocida | Геном Vibrio cholerae | Геном Pseudomonas aeruginosa | |
Характеристика лучшей находки: | ||||
E-value находки | 1*10-111 | 1*10-140 | 1*10-139 | |
координаты выравнивания(-ий) в записи генома |
3570..4490 | 1506..2543 | 2378..3412 | |
AC соответствующей записи EMBL | AE006074 | AE004192 | AE004487 (заменен AE004091 12 июля 2006) | |
Координаты CDS в записи EMBL (если они есть) | 3510..4520 | 1497..2549 | 2360..3418 | |
AC UniProt в записи EMBL (если есть) | Q9CNP8 | Q9KSZ4 | Q9I618 | |
Число находок с Е-value<0,01 |
1 | 2 | 1 | |
Поиск в 3-х геномах одновременно | ||||
Е-value лучшей находки при поиске в 3-х геномах в 3-х геномахи | 1*10-110 | 1*10-140 | 1*10-139 | |
Число находок с Е-value<0,01 в 3-х геномахи |
1 | 2 | 1 |
Осуществим аналогичный поиск, что и предыдущем пункте, по 3-м геномам только с помощью программы blastn:
blastall -p blastn -d 3g -i BIOB_gene1.fasta -o blastn_3g.txt
Найдено 98 находок, из них 2 с e-value < 0.01, лучшая находка e-value 9*10-25. В лучшей находке длина выравнивания 233 пары нуклеотидов, вес выравнмвания 113 бит, процент совпадения 81%.
>embl|AE004192|AE004192 Vibrio cholerae O1 biovar eltor str. N16961 chromosome I, section 100 of 251 of the complete chromosome. Length = 12891 Score = 113 bits (57), Expect = 9e-25 Identities = 189/233 (81%) Strand = Plus / Plus Query: 646 ccggaaagcgtgccaatcaacatgctggtgaaggtgaaaggcacgccgcttgccgataac 705 |||||||| ||||| |||||||||||||| || |||||||| || || || | | | Sbjct: 2142 ccggaaagtgtgccgatcaacatgctggtcaaagtgaaaggtacaccactggaacaagtc 2201 Query: 706 gatgatgtcgatgcctttgattttattcgcaccattgcggtcgcgcggatcatgatgcca 765 |||||||| || ||||||||||| | || |||||||| ||||| || |||||||| Sbjct: 2202 gatgatgtggaaccctttgattttgtgcgtttgattgcggtagcgcgcattatgatgccg 2261 Query: 766 acctcttacgtgcgcctttctgccggacgcgagcagatgaacgaacagactcaggcgatg 825 | ||| || |||||||| || ||||||||| ||||||| || |||| |||||| || Sbjct: 2262 aaatctgcggttcgcctttcagctggacgcgagaagatgaatgagcagatgcaggcgctg 2321 Query: 826 tgctttatggcaggcgcaaactcgattttctacggttgcaaactgctgaccac 878 |||||||||||||| || || |||||||||||||||||||||||||||||||| Sbjct: 2322 tgctttatggcaggagccaattcgattttctacggttgcaaactgctgaccac 2374Участок выравненой последовательности из банка лежит в гене VC1112. Далее следует аннотация соответствующего фрагмента генома из записи EMBL.
FT gene 1497..2549 FT /gene="VC1112" FT CDS 1497..2549 FT /codon_start=1 FT /transl_table=11 FT /gene="VC1112" FT /product="biotin synthase" FT /note="similar to GB:J04423 SP:P12996 PID:145425 PID:490219 FT GB:U00096; identified by sequence similarity; putative" FT /db_xref="GOA:Q9KSZ4" FT /db_xref="HSSP:P12996" FT /db_xref="InterPro:IPR002684" FT /db_xref="InterPro:IPR006638" FT /db_xref="InterPro:IPR007197" FT /db_xref="InterPro:IPR010722" FT /db_xref="UniProtKB/TrEMBL:Q9KSZ4" FT /protein_id="AAF94271.1" FT /translation="MEVRHNWTVAEVKALLDKPFMDLLFEAQQVHRLHHPHNHVQVSTL FT LSIKTGACPEDCKYCPQSAHYRTDVDKERLMEVERVLDAAQKAKNSGSTRFCMGAAWKN FT PKERDMPLLKEMIRGVKDMGLETCMTLGMLTPDQAQQLAQAGLDYYNHNLDTSPEFYGN FT IITTRTYQDRLDTLSHVRDAGMKICSGGIIGMGESTNDRAGLLVELANLPTHPESVPIN FT MLVKVKGTPLEQVDDVEPFDFVRLIAVARIMMPKSAVRLSAGREKMNEQMQALCFMAGA FT NSIFYGCKLLTTPNPAEDSDMLLFKKLGINREQVAQKPDEITENELLDRVVERVAARPT FT ASDLFYDAAL"Исследуя полученые результаты можно сделать вывод, что и в первом и во втором упражнениях, программы справились с задачей и обнаружили гомологи.