Главная страница > Третий семестр > Программы пакета BLAST для работы с нуклеотидными последовательностями
Поиск генов сходных с геном pyrG E.coli производился геному Pasteurella multocida. А также по геномам:Xanthomonas campestris, Salmonella typhimurium.
Для поиска с помощью программы formatdb были созданы индексные файлы по каждому из геномов.
Данная программа создет три индексных файла с одним и тем же базовым именем, но с разными расширениями:nhr, nin и nsq.
При этом файл с расширением nsq самый большой, и можно предположить, что именно в нем содержиться информация о нуклеотидной
последовательности.
Команда: formatdb -i pm_genome.fasta -p F -n pm
Для проведения поиска была задействована программа TBLASTN, которая проводит поиск участков
нуклеотидной последовательности по входной белковой последовательности.
Команда: blastall -p tblastn -d pm -i PYRG.fasta -o tblast1
Были созданы индексные файлы сразу по трем геномам.
Команда: formatdb -i 'xc_genome.fasta st_genome.fasta pm_genome.fasta' -p F -n 3in1
Поиск был проведен с помощью той же программы TBLASTN.
Команда: blastall -p tblastn -d 3in1 -i PYRG.fasta -o tblast3
Результаты поиска сразу по трем геномам также приведены в Таблице 1.
Таблица 1.
Поиск гомологов PYRG_ECOLI | Геном Pasteurella multocida |
Число находок с Е-value<0,001 | 1 |
Характеристика лучшей находки: |
|
E-value находки | 0.0 |
AC соответствующей записи EMBL | AE006225 |
Координаты выравнивания в записи EMBL | 3189-1564 |
Координаты CDS в записи EMBL | complement(1561..3189) |
AC UniProt в записи EMBL | Q9CJW9 |
Поиск сразу по трем геномам |
|
Число находок с Е-value<0,001 | 3 |
E-value лучшей находки | 0.0 |
Для Pasteurella multocida координаты выравнивания в записи EMBL не сходятся с координатами CDS в записи EMBL ровно на три нуклеотида (cкорее всего эти три нуклеотида представляют собой стоп-кодон). Так как для Pasteurella multocida координаты выравнивания в записи EMBL практически совпадают с координатами CDS в записи EMBL, то можно заключить, что эти два гена кодируют гомологичные белки. И действительно, белки PYRG_ECOLI и PYRG_PASMU оба являются ЦТФ-синтетазами.
Интересно, что при поиске сразу по трем геномам лучшая находка принадлежала не участку генома Pasteurella multocida, а участку генома Salmonella typhimurium (E-value=0.0). В геноме Salmonella typhimurium также находиться ген PYRG_SALTY, также являющийся ЦТФ-синтетазой. А находка с участком генома Pasteurella multocida оказалась лишь второй. Возможно это может быть связано с увеличением базы индексных файлов и соответственно увеличение в несколько раз базы нуклеотидных последовательностей, находящейся в них (ведь теперь мы ищем не по одному геному, а сразу по трем).
С помощью программы BLASTN был осуществлен поиск участков геномов:
Pasteurella multocida, Xanthomonas campestris, Salmonella typhimurium, сходных с последовательностью
гена, кодирующего PYRG E.coli.
Команда: blastall -p blastn -d 3in1 -i pyrg_gen.fasta -o blastn3
Ниже приведено соответствующее выравнивание:
>AE008835 AE006468 |AE008835| Salmonella typhimurium LT2, section 139 of 220 of the complete genome. Length = 21791 Score = 1582 bits (798), Expect = 0.0 Identities = 1428/1638 (87%) Strand = Plus / Minus Query: 1 atgacaacgaactatatttttgtgaccggcggggtcgtatcctctctgggtaaaggcatt 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 4985 atgacaacgaactatatttttgtgaccggcggggtcgtatcctctctgggtaaaggcatt 4926 Query: 61 gccgcagcctccctcgcagccattcttgaagcccgtggcctcaatgtgaccatcatgaaa 120 |||||||||||||||||||||||||| ||||||||||| ||||| ||||||||||||||| Sbjct: 4925 gccgcagcctccctcgcagccattctggaagcccgtggtctcaacgtgaccatcatgaaa 4866 Query: 121 ctggatccgtacatcaacgtcgatccaggtactatgagcccaatccaacacggggaagtg 180 |||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||| Sbjct: 4865 ctggatccgtacatcaacgtcgatccgggtactatgagcccaatccaacacggggaagtg 4806 Query: 181 ttcgttactgaagacggcgctgaaaccgacctggacctggggcactacgagcgtttcatt 240 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 4805 ttcgttactgaagacggcgctgaaaccgacctggacctggggcactacgagcgtttcatc 4746 Query: 241 cgtaccaaaatgagccgccgcaacaacttcaccacgggtcgtatctactctgacgttctg 300 || ||||| ||| ||||||||||||||||| || || || |||||||| ||||||||| Sbjct: 4745 cgcaccaagatgtctcgccgcaacaacttcacgactggccgcatctactccgacgttctg 4686 Query: 301 cgtaaagaacgccgcggtgactacctcggcgcaaccgtgcaggttattccgcacatcact 360 |||||||||||||| || ||||| || ||||||||||| ||||| || || ||||||||| Sbjct: 4685 cgtaaagaacgccgtggcgactatctgggcgcaaccgtacaggtcatccctcacatcact 4626 Query: 361 aacgcaatcaaagagcgcgtgctggaaggtggcgaaggtcatgacgtagtactggtagaa 420 ||||| || ||||||||||||||||||||||||||||| || || || |||||||| ||| Sbjct: 4625 aacgcgattaaagagcgcgtgctggaaggtggcgaaggccacgatgtggtactggtggaa 4566 Query: 421 atcggcggtacagtaggtgatatcgaatccttgccgttcctcgaagcgattcgccagatg 480 ||||||||||| || |||||||||||||| ||||||| || || |||||||| || || Sbjct: 4565 atcggcggtaccgtcggtgatatcgaatcgctgccgtttcttgaggcgattcgtcaattg 4506 Query: 481 gctgttgaaattggccgtgagcacactctgtttatgcacctgacgctggtgccgtacatg 540 || || || || || ||||| ||| | ||||||||||||||||||||||| || ||| || Sbjct: 4505 gcggtagatatcggtcgtgaacacgcgctgtttatgcacctgacgctggtaccttacctg 4446 Query: 541 gcagcgtctggtgaagtcaaaaccaaaccgactcagcactctgtaaaagagctgctctcc 600 || || | || ||||| ||||| ||||||||||||||||| || ||||||||||| || Sbjct: 4445 gcggctgcgggcgaagtgaaaactaaaccgactcagcactccgtgaaagagctgctgtct 4386 Query: 601 atcggtatccagcctgacatcctgatttgtcgttcagatcgcgctgttccggcgaacgaa 660 |||||||| ||||| || || |||||||||||||| |||||||| ||||| || ||||| Sbjct: 4385 atcggtattcagcccgatattctgatttgtcgttccgatcgcgcggttcctgccaacgag 4326 Query: 661 cgtgcgaagattgcattgttctgtaatgttccggaaaaagcggttatttctctgaaagac 720 ||||| || |||||||||||||||||||| ||||||||||| |||||||| ||||||| Sbjct: 4325 cgtgcaaaaattgcattgttctgtaatgtgccggaaaaagccgttatttcaatgaaagat 4266 Query: 721 gtcgattccatctataaaattccgggcctgttgaaatctcaggggctggacgattatatt 780 ||||||||||| ||||||||||||||||||||||||||||||||||| || ||||||||| Sbjct: 4265 gtcgattccatttataaaattccgggcctgttgaaatctcaggggcttgatgattatatt 4206 Query: 781 tgtaaacgattcagcttaaactgcccggaagcgaatctgtccgaatgggaacaggttatc 840 ||||||||||||||||| ||||| |||||||| || ||||| |||||||||||||| || Sbjct: 4205 tgtaaacgattcagcttgaactgtccggaagctaacctgtctgaatgggaacaggtcatt 4146 Query: 841 ttcgaagaagcgaacccggtaagtgaagtcaccatcggtatggtcggcaagtacattgaa 900 | ||||||||||||||||| | | ||||| || ||||| ||||||||||| || |||||| Sbjct: 4145 tacgaagaagcgaacccggcaggcgaagtgactatcggcatggtcggcaaatatattgaa 4086 Query: 901 ctgccggatgcttataaatcagtgatcgaagcactgaaacacggtgggctgaagaatcgt 960 ||||||||||| ||||| || ||||||||||| |||||||||||||| ||||| || || Sbjct: 4085 ctgccggatgcctataagtcggtgatcgaagcgctgaaacacggtggtctgaaaaaccgc 4026 Query: 961 gtcagcgtcaacatcaaactgatcgattcacaagatgttgaaacgcgcgggcttgaaatc 1020 || | ||||||||||||| |||||||||| |||||||||||||||||||| | ||||| Sbjct: 4025 gttaccgtcaacatcaaattgatcgattcgcaagatgttgaaacgcgcggcgtcgaaatt 3966 Query: 1021 cttaaaggtctggacgcaatcctcgtacctggcggtttcggctatcgtggcgtagaaggc 1080 || |||| | ||||||| ||||| | || ||||| ||||||||||||||||| ||||| Sbjct: 3965 ctgaaagatttggacgctatcctgatccccggcggcttcggctatcgtggcgttgaaggt 3906 Query: 1081 atgattacgaccgcgcgttttgcgcgtgagaacaatattccttatctgggcatttgcctg 1140 | || | || ||||| | ||||||||| ||||||||||||||||||||||||||| || Sbjct: 3905 aaaatcgccactgcgcgctatgcgcgtgaaaacaatattccttatctgggcatttgcttg 3846 Query: 1141 ggtatgcaggtggcgttaattgattacgctcgccatgttgccaacatggagaacgccaac 1200 || |||||||| ||||| ||||| | |||||| | || ||| |||||| ||||||||| Sbjct: 3845 gggatgcaggttgcgttgattgagttcgctcgtaacgtggccggcatggacaacgccaac 3786 Query: 1201 tctacggaatttgtgccagactgtaagtacccggttgtggcgctgattaccgagtggcgc 1260 || ||||||||||||||||||||||||||||||||||||||| | ||||||||||||||| Sbjct: 3785 tcaacggaatttgtgccagactgtaagtacccggttgtggcgttaattaccgagtggcgc 3726 Query: 1261 gatgaaaacggcaacgttgaagttcgtagcgagaagagcgatctcggcggtaccatgcgt 1320 |||||| |||| ||||||||||| ||||||||||| |||||||| ||||| |||||||| Sbjct: 3725 gatgaagacggtaacgttgaagtccgtagcgagaaaagcgatctgggcggcaccatgcgc 3666 Query: 1321 ctcggcgcacagcagtgccagttggttgacgatagcctggttcgccagctgtacaatgcg 1380 || ||||| |||||||||||| | || || || ||||| || ||| ||||| ||| Sbjct: 3665 ctgggcgcgcagcagtgccagcttagcgatgacagtctggtacgtcagttgtacggcgcg 3606 Query: 1381 ccgacaattgttgagcgtcatcgtcaccgttacgaagtcaacaacagtctgttgaaacag 1440 |||| |||||||| |||||||| || ||||||||||||||||| | |||||||||| Sbjct: 3605 tcgacgattgttgaacgtcatcgccatcgttacgaagtcaacaatatgttgttgaaacaa 3546 Query: 1441 attgaagatgcaggtctgcgcgttgcgggccgttccggggatgatcagttggtcgagatc 1500 ||||||| || |||||||| || || ||||||||||| ||||||||||| ||||||||| Sbjct: 3545 attgaagcagcgggtctgcgtgtcgcaggccgttccggtgatgatcagttagtcgagatc 3486 Query: 1501 atcgaagttccgaatcacccgtggttcgtggcttgccagttccatccggagtttacttct 1560 || || || |||||||| |||||||||||||| || |||||||||||||| |||||||| Sbjct: 3485 attgaggtaccgaatcatccgtggttcgtggcctgtcagttccatccggaatttacttcc 3426 Query: 1561 actccacgtgatggtcacccgctgtttgcaggctttgtgaaagccgccagcgagttccag 1620 || || |||||||| || ||| |||| || |||||||| |||||||||| |||| ||| Sbjct: 3425 acgccgcgtgatggacatccgttgttcgctggctttgttaaagccgccaacgagcatcag 3366 Query: 1621 aaacgtcaggcgaagtaa 1638 |||||||||||||||||| Sbjct: 3365 aaacgtcaggcgaagtaa 3348 |
Лучшая находка принадлежала геному Salmonella typhimurium. Для данной находки было
представлено только одно выравнивание. E-value для этого выравнивания составляет 0.0. Следует
отметить, что координаты выравнивания абсолютно точно совпадают с координатами CDS гена pyrG E.coli.
Второй в списке стоит находка, принадлежащая геному Xanthomonas campestris(e-value=5e-18). Для данной находки
было представлено сразу 4 выравнивания. И наконец третьей в списке находок стоит Pasteurella multocida (e-value=2e-1).
Интересно, что занчения e-value в списке лучших находок, полученных с помощью программы BLASTN,
значительно увеличилось по сравнению со значениями e-value, полученными с помощью программы TBLASTN (особенно это различие в e-value заметно на примере двух находок Pasteurella multocida: e-value находки изменилось с 0.0 до 2e-1).
Это может объясняться тем, что программа TBLASTN работает с нуклеотидными последовательностями, а не
с белковыми, как BLASTN. Соответственно в силу вырожденности генетического кода(одна и та же
аминокислота зачастую может кодироваться кодонами, с различными третьими остатками),
поиск по белковой последовательности будет давать лучший
результат, но в какой-то степени будет менее точным, чем поиск по нуклеотидной последовательности. Говоря о
вырожденности генетического кода, следует отметить, что основные различия в выравниваниях
двух программ будут в третьих остатках кодонов. Поэтому для
поиска гомологов белка лучше использовать программу TBLASTN(поскольку нам не важно какая именно
нуклеотидная последовательность кодирует данный белок, а важна именно его аминокислотная последовательность),
а для поиска схожих генов(например, чтобы проследить их эволюцию) лучше использовать BLASTN.
Результаты работы программы BLASTN приведены в Таблице 2.
Таблица 2.
Поиск гомологов PYRG_ECOLI | Поиск сразу по трем геномам |
Число находок с Е-value<0,001 | 3 |
Характеристика лучшей находки: |
|
E-value находки | 0.0 |
AC соответствующей записи EMBL | AE008835 |
Координаты выравнивания в записи EMBL | 4985-3348 |
Координаты CDS в записи EMBL | complement(3348..4985) |
AC UniProt в записи EMBL | P65921 |
© Алипер Александр Миронович