Программы пакета BLAST для работы с нуклеотидными последовательностями
  1. Поиск в геноме участков, кодирующих белки, похожие на заданный

    Заданным белком является белок из Escherichia coli K-12 с известной аминокислотной последовательностью. Требовалось определить, закодированы ли похожие белки в геноме организма Pasteurella multocida.
    Сперва в рабочей директории создавались индексные файлы пакета BLAST для поиска по заданному геному.
    (formatdb -i pm_genome.fasta -p F -n pm)
    Далее через Putty запускалась программа TBLASTN из пакета BLAST так, чтобы поиск велся с порогом на E-value 0,001.
    (blastall -p tblastn -d pm -i iscs_ecoli.fasta -o output.txt -e 0.001)
    Результат выполнения данной команды находится, соответственно, в файле output.txt. В общем, он характеризуется следующими данными:

    Поиск гомологов белка iscs_ecoli в геноме бактерии Pasteurella multocida
    Число находок с Е-value<0,001 2
    Характеристика лучшей находки:  
       E-value находки 0.0
    AC соответствующей записи EMBL AE006068
    Координаты выравнивания в записи EMBL 582 - 1793
    Координаты CDS в записи EMBL 582 - 1796

  2. Аналогичный поиск сразу в нескольких геномах

    Теперь такой же поиск ведется одновременно по трем геномам: как и в предыдущем упражнении, по полному геному бактерии Pasteurella multocida, а также по геномам Salmonella typhimurium и Xanthomonas campestris.
    Результат поиска представляет собой файл output_all.txt

    Можно отметить некоторые различия между результатами, полученными в этом и в предыдущем упражнениях.
    В предыдущем упражнении было всего 2 находки с E-value меньше 0,001. Лучшая из них, с AC AE006068 в EMBL, имела E-value 0.0 и Score 659.
    Поиск в нескольких геномах выдал 11 находок, среди которых присутствует AE006068 с теми же значениями E-value и Score. Однако в этом случае она не является лучшей: находка с AC AE006468 имеет значение Score 757.
    Оба эти варианта поиска обнаружили и ген AE006126, принадлежащий, естественно, бактерии Pasteurella multocida. И для него отличается значение E-value, выданное программой в двух упражнениях. В первом случае, когда поиск велся только по геному этой бактерии, оно было равно 8e-23, тогда как при втором поиске увеличивается до 4e-22.

  3. Поиск гомологов с помощью программы BLASTN

    Для выполнения упражнения сначала нужно было получить fasta-файл с последовательностью из генома E.coli, кодирующей белок.
    Для этого в записи Swiss-Prot искали ссылки на банк EMBL, по данному номеру получали соответствующую запись EMBL, в ней находили нужное CDS и оттуда брали координаты участка для вырезания. Вырезался участок программой seqret, в результате чего была получена следующая нуклеотидная последовательность, которая кодирует определенную аминокислотную.

    Белок ISCS_ECOLI - это Cysteine desulfurase, также синоним названия - NifS protein homolog, указано и название кодирующего гена (iscS). С помощью системы SRS нашли информацию о функциях этого белка: Catalyzes the removal of elemental sulfur and selenium atoms from cysteine and selenocysteine to produce alanine. Functions as a sulfur delivery protein for NAD, biotin and Fe-S cluster synthesis. Transfers sulfur on 'Cys-456' of thiI in a transpersulfidation reaction. Transfers sulfur on 'Cys-19' of tusA in a transpersulfidation reaction. Functions also as a selenium delivery protein in the pathway for the biosynthesis of selenophosphate.

    Мы искали гомологов гена iscs_ecoli в геномах трех бактерий при помощи программы BLASTN. На вход программе подавалась нуклеотидная последовательность соответствующего гена. В результате BLASTN выдал следующий файл (без ограничения E-value) и другой, со значением E-value меньше 0.001.

    Лучшая находка такого поиска имеет значение E-value, равное 0.0 и Score - 1378. Эти показатели значительно отличаются от показателей всех последующих находок: Score второй из них составляет всего 74. Это, по-видимому, говорит о том, что фактически был найден 1 ген, гомологичный заданному.
    Рассмотрим соответствующее выравнивание:

    Query: 1     atgaaattaccgatttatctcgactactccgcaaccacgccggtggacccgcgtgttgcc 60
                 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 17399 atgaaattaccgatttatctcgactactccgcaaccacgccggtggacccgcgtgttgcc 17340
    
                                                                             
    Query: 61    gagaaaatgatgcagtttatgacgatggacggaacctttggtaacccggcctcccgttct 120
                 |||||||||||||||||| ||||  |||||||||||||||| |||||||| || ||||| 
    Sbjct: 17339 gagaaaatgatgcagtttctgaccctggacggaacctttgggaacccggcgtctcgttca 17280
    
                                                                             
    Query: 121   caccgtttcggctggcaggctgaagaagcggtagatatcgcccgtaatcagattgccgat 180
                 ||||||||||||||||||||||||||||| || ||||||||||| || |||||||| || 
    Sbjct: 17279 caccgtttcggctggcaggctgaagaagccgtcgatatcgcccgcaaccagattgctgaa 17220
    
                                                                             
    Query: 181   ctggtcggcgctgatccgcgtgaaatcgtctttacctctggtgcaaccgaatctgacaac 240
                 ||||||||||| || ||||||||||||||||||||||| || || || || ||||| |||
    Sbjct: 17219 ctggtcggcgccgacccgcgtgaaatcgtctttacctcaggggcgacggagtctgataac 17160
    
                                                                             
    Query: 241   ctggcgatcaaaggtgcagccaacttttatcagaaaaaaggcaagcacatcatcaccagc 300
                 |||||||| ||||| || ||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 17159 ctggcgattaaaggcgctgccaacttttatcagaaaaaaggcaagcacatcatcaccagc 17100
    
                                                                             
    Query: 301   aaaaccgaacacaaagcggtactggatacctgccgtcagctggagcgcgaaggttttgaa 360
                 || ||||| ||||||||||| ||||| |||||||||||||| ||||||||||| ||||||
    Sbjct: 17099 aagaccgagcacaaagcggtgctggacacctgccgtcagcttgagcgcgaagggtttgaa 17040
    
                                                                             
    Query: 361   gtcacctacctggcaccgcagcgtaacggcattatcgacctgaaagaacttgaagcagcg 420
                 || ||||||||||| |||||||| |||||||| ||||| || || || || |||||||||
    Sbjct: 17039 gtgacctacctggcgccgcagcgcaacggcatcatcgatctcaacgagctcgaagcagcg 16980
    
                                                                             
    Query: 421   atgcgtgacgacaccatcctcgtgtccatcatgcacgtaaataacgaaatcggcgtggtg 480
                 ||||||||||||||||| || || |||||||||||||| || ||||||||||||||||||
    Sbjct: 16979 atgcgtgacgacaccattctggtttccatcatgcacgtgaacaacgaaatcggcgtggtg 16920
    
                                                                             
    Query: 481   caggatatcgcggctatcggcgaaatgtgccgtgctcgtggcattatctatcacgttgat 540
                 |||||||||||| | ||||||||||||||||| || || || || ||||| |||||||||
    Sbjct: 16919 caggatatcgcgaccatcggcgaaatgtgccgcgcgcgcggtatcatctaccacgttgat 16860
    
                                                                             
    Query: 541   gcaacccagagcgtgggtaaactgcctatcgacctgagccagttgaaagttgacctgatg 600
                 || |||||||||||||| |||||||||||||| ||||||||  ||||||| || ||||||
    Sbjct: 16859 gccacccagagcgtgggcaaactgcctatcgatctgagccaactgaaagtggatctgatg 16800
    
                                                                             
    Query: 601   tctttctccggtcacaaaatctatggcccgaaaggtatcggtgcgctgtatgtacgtcgt 660
                 || ||||||||||| ||||| ||||| |||||||| || || ||||||||||| ||||||
    Sbjct: 16799 tccttctccggtcataaaatttatggtccgaaaggcattggcgcgctgtatgtgcgtcgt 16740
    
                                                                             
    Query: 661   aaaccgcgcgtacgcatcgaagcgcaaatgcacggcggcggtcacgagcgcggtatgcgt 720
                 || |||||  | ||||| |||||||| ||||| |||||||| ||||| ||||||||||| 
    Sbjct: 16739 aagccgcgtattcgcattgaagcgcagatgcatggcggcgggcacgaacgcggtatgcgc 16680
    
                                                                             
    Query: 721   tccggcactctgcctgttcaccagatcgtcggaatgggcgaggcctatcgcatcgcaaaa 780
                 || || ||||||||||| |||||||| ||||| |||||||| || || || ||||| |||
    Sbjct: 16679 tctggtactctgcctgtccaccagattgtcggcatgggcgaagcttaccgtatcgcgaaa 16620
    
                                                                             
    Query: 781   gaagagatggcgaccgagatggaacgtctgcgcggcctgcgtaaccgtctgtggaacggc 840
                 |||||||||| |||||| ||||  ||||||||||| ||||||||||||||||||||||||
    Sbjct: 16619 gaagagatggagaccgaaatggcccgtctgcgcggtctgcgtaaccgtctgtggaacggc 16560
    
                                                                             
    Query: 841   atcaaagatatcgaagaagtttacctgaacggtgacctggaacacggtgcgccgaacatt 900
                 ||||||||||| |||||||||||||||||||| ||||| || || || ||||| ||||||
    Sbjct: 16559 atcaaagatattgaagaagtttacctgaacggcgaccttgagcagggcgcgccaaacatt 16500
    
                                                                             
    Query: 901   ctcaacgtcagcttcaactacgttgaaggtgagtcgctgattatggcgctgaaagacctc 960
                 |||||||| ||||| |||||||||||||| ||||||||||| ||||||||||||||||| 
    Sbjct: 16499 ctcaacgtgagctttaactacgttgaaggcgagtcgctgatcatggcgctgaaagacctg 16440
    
                                                                             
    Query: 961   gcagtttcttcaggttccgcctgtacgtcagcaagcctcgaaccgtcctacgtgctgcgc 1020
                 || || ||||| ||||||||||| || || || || || |||||||||||||||||||| 
    Sbjct: 16439 gcggtctcttccggttccgcctgcacctccgccagtctggaaccgtcctacgtgctgcgt 16380
    
                                                                             
    Query: 1021  gcgctggggctgaacgacgagctggcacatagctctatccgtttctctttaggtcgtttt 1080
                 ||| ||||  |||| ||||| ||||| |||||||||||||||||||||||||||||||||
    Sbjct: 16379 gcgttgggcatgaatgacgaactggcgcatagctctatccgtttctctttaggtcgtttt 16320
    
                                                                             
    Query: 1081  actactgaagaagagatcgactacaccatcgagttagttcgtaaatccatcggtcgtctg 1140
                 || |||||||||||||||||||||||||| ||  | |||||||||||||| || ||||||
    Sbjct: 16319 accactgaagaagagatcgactacaccattgatctggttcgtaaatccattggccgtctg 16260
    
                                                                             
    Query: 1141  cgtgacctttctccgctgtgggaaatgtacaagcagggcgtggatctgaacagcatcgaa 1200
                 |||||||||||||| ||||||||||||||||||||||| |||||||||||||||||||||
    Sbjct: 16259 cgtgacctttctccactgtgggaaatgtacaagcagggtgtggatctgaacagcatcgaa 16200
    
                                
    Query: 1201  tgggctcatcattaa 1215
                 ||||| |||||||||
    Sbjct: 16199 tgggcacatcattaa 16185
    
    Для него Identities составляет 89%, что является довольно неплохим показателем. Исходная последовательность выровнена полностью: с 1 по 1215 нуклеотиды. Последовательность Sbjct, соответственно, с 17399 по 16185. Пользуясь этими данными, а также AC находки в EMBL (AE008815) можно найти запись поля cds из документа банка EMBL, описывающую полученный фрагмент генома. Выясняется, что последовательность представляет собой ген nifS, кодирующий белок putative cysteine desulfurase (putative aminotransferase class-V) со следующей последовательностью, AC UniProt Q0W2W6 .

    В сравнении с результатами предыдущего упражнения (когда на вход программе подавалась аминокислотная последовательность белка) находок в этом упражнении (теперь на вход подается нуклеотидная последовательность гена) при ограничении на E-value оказалось значительно меньше - всего 2. Они совпадают с первыми двумя находками поиска в предыдущем упражнении. Для лучшей из них - из бактерии Salmonella typhimurium LT2 - в двух случаях различаются значения Score. При выравнивании нуклеотидных последовательностей заданного гена и найденного гена этой бактерии процент идентичности равен 89%, совпадают 1085 из 1215 нуклеотидов. При выравнивании же соответствующих аминокислотных последовательностей совпадают 381 из 404 аминокислотных остатков, что соответствует 95% идентичности.