Главная страница > Третий семестр > Программы пакета BLAST для работы с нуклеотидными последовательностями  

Программы пакета BLAST для работы с нуклеотидными последовательностями


Поиск в геноме участков, кодирующих белки, похожие на PYRG E.coli

Поиск генов сходных с геном pyrG E.coli производился геному Pasteurella multocida. А также по геномам:Xanthomonas campestris, Salmonella typhimurium.

Для поиска с помощью программы formatdb были созданы индексные файлы по каждому из геномов. Данная программа создет три индексных файла с одним и тем же базовым именем, но с разными расширениями:nhr, nin и nsq. При этом файл с расширением nsq самый большой, и можно предположить, что именно в нем содержиться информация о нуклеотидной последовательности.

Команда: formatdb -i pm_genome.fasta -p F -n pm

Для проведения поиска была задействована программа TBLASTN, которая проводит поиск участков нуклеотидной последовательности по входной белковой последовательности.

Команда: blastall -p tblastn -d pm -i PYRG.fasta -o tblast1

Результаты работы данной программы представлены в Таблице 1.




Поиск гомологов по трем геномам сразу.

Были созданы индексные файлы сразу по трем геномам.

Команда: formatdb -i 'xc_genome.fasta st_genome.fasta pm_genome.fasta' -p F -n 3in1

Поиск был проведен с помощью той же программы TBLASTN.

Команда: blastall -p tblastn -d 3in1 -i PYRG.fasta -o tblast3

Результаты поиска сразу по трем геномам также приведены в Таблице 1.

Таблица 1.

Поиск гомологов PYRG_ECOLI Геном Pasteurella multocida
Число находок с Е-value<0,001 1

Характеристика лучшей находки:

E-value находки 0.0
AC соответствующей записи EMBL AE006225
Координаты выравнивания в записи EMBL 3189-1564
Координаты CDS в записи EMBL complement(1561..3189)
AC UniProt в записи EMBL Q9CJW9

Поиск сразу по трем геномам

Число находок с Е-value<0,001 3
E-value лучшей находки 0.0

Выводы

Для Pasteurella multocida координаты выравнивания в записи EMBL не сходятся с координатами CDS в записи EMBL ровно на три нуклеотида (cкорее всего эти три нуклеотида представляют собой стоп-кодон). Так как для Pasteurella multocida координаты выравнивания в записи EMBL практически совпадают с координатами CDS в записи EMBL, то можно заключить, что эти два гена кодируют гомологичные белки. И действительно, белки PYRG_ECOLI и PYRG_PASMU оба являются ЦТФ-синтетазами.

Интересно, что при поиске сразу по трем геномам лучшая находка принадлежала не участку генома Pasteurella multocida, а участку генома Salmonella typhimurium (E-value=0.0). В геноме Salmonella typhimurium также находиться ген PYRG_SALTY, также являющийся ЦТФ-синтетазой. А находка с участком генома Pasteurella multocida оказалась лишь второй. Возможно это может быть связано с увеличением базы индексных файлов и соответственно увеличение в несколько раз базы нуклеотидных последовательностей, находящейся в них (ведь теперь мы ищем не по одному геному, а сразу по трем).






Поиск гомологов с помощью программы BLASTN

С помощью программы BLASTN был осуществлен поиск участков геномов: Pasteurella multocida, Xanthomonas campestris, Salmonella typhimurium, сходных с последовательностью гена, кодирующего PYRG E.coli.

Команда: blastall -p blastn -d 3in1 -i pyrg_gen.fasta -o blastn3

Ниже приведено соответствующее выравнивание:


>AE008835 AE006468 |AE008835| Salmonella typhimurium LT2, section 139
            of 220 of the complete genome.
          Length = 21791

 Score = 1582 bits (798), Expect = 0.0
 Identities = 1428/1638 (87%)
 Strand = Plus / Minus

                                                                        
Query: 1    atgacaacgaactatatttttgtgaccggcggggtcgtatcctctctgggtaaaggcatt 60
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 4985 atgacaacgaactatatttttgtgaccggcggggtcgtatcctctctgggtaaaggcatt 4926

                                                                        
Query: 61   gccgcagcctccctcgcagccattcttgaagcccgtggcctcaatgtgaccatcatgaaa 120
            |||||||||||||||||||||||||| ||||||||||| ||||| |||||||||||||||
Sbjct: 4925 gccgcagcctccctcgcagccattctggaagcccgtggtctcaacgtgaccatcatgaaa 4866

                                                                        
Query: 121  ctggatccgtacatcaacgtcgatccaggtactatgagcccaatccaacacggggaagtg 180
            |||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||
Sbjct: 4865 ctggatccgtacatcaacgtcgatccgggtactatgagcccaatccaacacggggaagtg 4806

                                                                        
Query: 181  ttcgttactgaagacggcgctgaaaccgacctggacctggggcactacgagcgtttcatt 240
            ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| 
Sbjct: 4805 ttcgttactgaagacggcgctgaaaccgacctggacctggggcactacgagcgtttcatc 4746

                                                                        
Query: 241  cgtaccaaaatgagccgccgcaacaacttcaccacgggtcgtatctactctgacgttctg 300
            || ||||| |||   ||||||||||||||||| || || || |||||||| |||||||||
Sbjct: 4745 cgcaccaagatgtctcgccgcaacaacttcacgactggccgcatctactccgacgttctg 4686

                                                                        
Query: 301  cgtaaagaacgccgcggtgactacctcggcgcaaccgtgcaggttattccgcacatcact 360
            |||||||||||||| || ||||| || ||||||||||| ||||| || || |||||||||
Sbjct: 4685 cgtaaagaacgccgtggcgactatctgggcgcaaccgtacaggtcatccctcacatcact 4626

                                                                        
Query: 361  aacgcaatcaaagagcgcgtgctggaaggtggcgaaggtcatgacgtagtactggtagaa 420
            ||||| || ||||||||||||||||||||||||||||| || || || |||||||| |||
Sbjct: 4625 aacgcgattaaagagcgcgtgctggaaggtggcgaaggccacgatgtggtactggtggaa 4566

                                                                        
Query: 421  atcggcggtacagtaggtgatatcgaatccttgccgttcctcgaagcgattcgccagatg 480
            ||||||||||| || ||||||||||||||  ||||||| || || |||||||| ||  ||
Sbjct: 4565 atcggcggtaccgtcggtgatatcgaatcgctgccgtttcttgaggcgattcgtcaattg 4506

                                                                        
Query: 481  gctgttgaaattggccgtgagcacactctgtttatgcacctgacgctggtgccgtacatg 540
            || || || || || ||||| ||| | ||||||||||||||||||||||| || ||| ||
Sbjct: 4505 gcggtagatatcggtcgtgaacacgcgctgtttatgcacctgacgctggtaccttacctg 4446

                                                                        
Query: 541  gcagcgtctggtgaagtcaaaaccaaaccgactcagcactctgtaaaagagctgctctcc 600
            || ||  | || ||||| ||||| ||||||||||||||||| || ||||||||||| || 
Sbjct: 4445 gcggctgcgggcgaagtgaaaactaaaccgactcagcactccgtgaaagagctgctgtct 4386

                                                                        
Query: 601  atcggtatccagcctgacatcctgatttgtcgttcagatcgcgctgttccggcgaacgaa 660
            |||||||| ||||| || || |||||||||||||| |||||||| ||||| || ||||| 
Sbjct: 4385 atcggtattcagcccgatattctgatttgtcgttccgatcgcgcggttcctgccaacgag 4326

                                                                        
Query: 661  cgtgcgaagattgcattgttctgtaatgttccggaaaaagcggttatttctctgaaagac 720
            ||||| || |||||||||||||||||||| ||||||||||| ||||||||  ||||||| 
Sbjct: 4325 cgtgcaaaaattgcattgttctgtaatgtgccggaaaaagccgttatttcaatgaaagat 4266

                                                                        
Query: 721  gtcgattccatctataaaattccgggcctgttgaaatctcaggggctggacgattatatt 780
            ||||||||||| ||||||||||||||||||||||||||||||||||| || |||||||||
Sbjct: 4265 gtcgattccatttataaaattccgggcctgttgaaatctcaggggcttgatgattatatt 4206

                                                                        
Query: 781  tgtaaacgattcagcttaaactgcccggaagcgaatctgtccgaatgggaacaggttatc 840
            ||||||||||||||||| ||||| |||||||| || ||||| |||||||||||||| || 
Sbjct: 4205 tgtaaacgattcagcttgaactgtccggaagctaacctgtctgaatgggaacaggtcatt 4146

                                                                        
Query: 841  ttcgaagaagcgaacccggtaagtgaagtcaccatcggtatggtcggcaagtacattgaa 900
            | ||||||||||||||||| | | ||||| || ||||| ||||||||||| || ||||||
Sbjct: 4145 tacgaagaagcgaacccggcaggcgaagtgactatcggcatggtcggcaaatatattgaa 4086

                                                                        
Query: 901  ctgccggatgcttataaatcagtgatcgaagcactgaaacacggtgggctgaagaatcgt 960
            ||||||||||| ||||| || ||||||||||| |||||||||||||| ||||| || || 
Sbjct: 4085 ctgccggatgcctataagtcggtgatcgaagcgctgaaacacggtggtctgaaaaaccgc 4026

                                                                        
Query: 961  gtcagcgtcaacatcaaactgatcgattcacaagatgttgaaacgcgcgggcttgaaatc 1020
            || | ||||||||||||| |||||||||| ||||||||||||||||||||  | ||||| 
Sbjct: 4025 gttaccgtcaacatcaaattgatcgattcgcaagatgttgaaacgcgcggcgtcgaaatt 3966

                                                                        
Query: 1021 cttaaaggtctggacgcaatcctcgtacctggcggtttcggctatcgtggcgtagaaggc 1080
            || |||| | ||||||| |||||  | || ||||| ||||||||||||||||| ||||| 
Sbjct: 3965 ctgaaagatttggacgctatcctgatccccggcggcttcggctatcgtggcgttgaaggt 3906

                                                                        
Query: 1081 atgattacgaccgcgcgttttgcgcgtgagaacaatattccttatctgggcatttgcctg 1140
            |  ||  | || ||||| | ||||||||| ||||||||||||||||||||||||||| ||
Sbjct: 3905 aaaatcgccactgcgcgctatgcgcgtgaaaacaatattccttatctgggcatttgcttg 3846

                                                                        
Query: 1141 ggtatgcaggtggcgttaattgattacgctcgccatgttgccaacatggagaacgccaac 1200
            || |||||||| ||||| ||||| | ||||||  | || |||  |||||| |||||||||
Sbjct: 3845 gggatgcaggttgcgttgattgagttcgctcgtaacgtggccggcatggacaacgccaac 3786

                                                                        
Query: 1201 tctacggaatttgtgccagactgtaagtacccggttgtggcgctgattaccgagtggcgc 1260
            || ||||||||||||||||||||||||||||||||||||||| | |||||||||||||||
Sbjct: 3785 tcaacggaatttgtgccagactgtaagtacccggttgtggcgttaattaccgagtggcgc 3726

                                                                        
Query: 1261 gatgaaaacggcaacgttgaagttcgtagcgagaagagcgatctcggcggtaccatgcgt 1320
            |||||| |||| ||||||||||| ||||||||||| |||||||| ||||| |||||||| 
Sbjct: 3725 gatgaagacggtaacgttgaagtccgtagcgagaaaagcgatctgggcggcaccatgcgc 3666

                                                                        
Query: 1321 ctcggcgcacagcagtgccagttggttgacgatagcctggttcgccagctgtacaatgcg 1380
            || ||||| |||||||||||| |    || || || ||||| || ||| |||||   |||
Sbjct: 3665 ctgggcgcgcagcagtgccagcttagcgatgacagtctggtacgtcagttgtacggcgcg 3606

                                                                        
Query: 1381 ccgacaattgttgagcgtcatcgtcaccgttacgaagtcaacaacagtctgttgaaacag 1440
             |||| |||||||| |||||||| || ||||||||||||||||| |   |||||||||| 
Sbjct: 3605 tcgacgattgttgaacgtcatcgccatcgttacgaagtcaacaatatgttgttgaaacaa 3546

                                                                        
Query: 1441 attgaagatgcaggtctgcgcgttgcgggccgttccggggatgatcagttggtcgagatc 1500
            |||||||  || |||||||| || || ||||||||||| ||||||||||| |||||||||
Sbjct: 3545 attgaagcagcgggtctgcgtgtcgcaggccgttccggtgatgatcagttagtcgagatc 3486

                                                                        
Query: 1501 atcgaagttccgaatcacccgtggttcgtggcttgccagttccatccggagtttacttct 1560
            || || || |||||||| |||||||||||||| || |||||||||||||| |||||||| 
Sbjct: 3485 attgaggtaccgaatcatccgtggttcgtggcctgtcagttccatccggaatttacttcc 3426

                                                                        
Query: 1561 actccacgtgatggtcacccgctgtttgcaggctttgtgaaagccgccagcgagttccag 1620
            || || |||||||| || ||| |||| || |||||||| |||||||||| ||||   |||
Sbjct: 3425 acgccgcgtgatggacatccgttgttcgctggctttgttaaagccgccaacgagcatcag 3366

                              
Query: 1621 aaacgtcaggcgaagtaa 1638
            ||||||||||||||||||
Sbjct: 3365 aaacgtcaggcgaagtaa 3348

Выводы

Лучшая находка принадлежала геному Salmonella typhimurium. Для данной находки было представлено только одно выравнивание. E-value для этого выравнивания составляет 0.0. Следует отметить, что координаты выравнивания абсолютно точно совпадают с координатами CDS гена pyrG E.coli. Второй в списке стоит находка, принадлежащая геному Xanthomonas campestris(e-value=5e-18). Для данной находки было представлено сразу 4 выравнивания. И наконец третьей в списке находок стоит Pasteurella multocida (e-value=2e-1). Интересно, что занчения e-value в списке лучших находок, полученных с помощью программы BLASTN, значительно увеличилось по сравнению со значениями e-value, полученными с помощью программы TBLASTN (особенно это различие в e-value заметно на примере двух находок Pasteurella multocida: e-value находки изменилось с 0.0 до 2e-1). Это может объясняться тем, что программа TBLASTN работает с нуклеотидными последовательностями, а не с белковыми, как BLASTN. Соответственно в силу вырожденности генетического кода(одна и та же аминокислота зачастую может кодироваться кодонами, с различными третьими остатками), поиск по белковой последовательности будет давать лучший результат, но в какой-то степени будет менее точным, чем поиск по нуклеотидной последовательности. Говоря о вырожденности генетического кода, следует отметить, что основные различия в выравниваниях двух программ будут в третьих остатках кодонов. Поэтому для поиска гомологов белка лучше использовать программу TBLASTN(поскольку нам не важно какая именно нуклеотидная последовательность кодирует данный белок, а важна именно его аминокислотная последовательность), а для поиска схожих генов(например, чтобы проследить их эволюцию) лучше использовать BLASTN.
Результаты работы программы BLASTN приведены в Таблице 2.


Таблица 2.

Поиск гомологов PYRG_ECOLI Поиск сразу по трем геномам
Число находок с Е-value<0,001 3

Характеристика лучшей находки:

E-value находки 0.0
AC соответствующей записи EMBL AE008835
Координаты выравнивания в записи EMBL 4985-3348
Координаты CDS в записи EMBL complement(3348..4985)
AC UniProt в записи EMBL P65921




© Алипер Александр Миронович