Программы пакета BLAST для работы с нуклеотидными последовательностями.



  1.   Поиск в геноме участков, кодирующих белки, похожие на заданный
    Задача - определить, закодированы ли похожие на RECQ_ECOLI из Escherichia coli K-12 белки в геноме другого организма, не пользуясь аннотацией генома. Создадим индексные файлы пакета BLAST для поиска по геному Pasteurella multocida. Далее, воспользовавшись прграммой TBLASTN, найдём гомологи.

    Поиск гомологов белка RECQ_ECOLI в геноме Pasteurella multocida

    Число находок с Е-value<0,001         1
    Характеристика лучшей находки:  
       E-value находки  9e-63
    Название геномной последовательности  AE006179
    Координаты выравнивания(-ий) в найденной последовательности  2577-3191


    Лучшая находка (файл) :
    >AE006179 Pasteurella multocida subsp. multocida str. Pm70 
             
    Query: 1    CDICLDPPKQYDGSTDAQIALSTIGRVNQRFGMGYVVEVIRGANNQRIRDYGHDKLKVYG 60
                CDICLDPPKQYDG  DAQ  +STI R+ QRFG+ YV+ V+RG +NQ+I+D  H++L VYG
    Sbjct: 2577 CDICLDPPKQYDGLIDAQKVMSTIYRIGQRFGVHYVIAVLRGLSNQKIKDNQHEQLSVYG 2756
    
    Query: 61   MGRDKSHEHWVSVIRQLIHLGLVTQNIAQHSA-LQLTEAARPVLRGESSLQLAVPRIVAL 119
                +G+DKS EHW SVIRQLIHLG + Q     +A LQLTE A+P+LRGE  L LA+PRI +L
    Sbjct: 2757 IGKDKSKEHWQSVIRQLIHLGFIKQVFDHFNATLQLTENAKPILRGEQPLSLAMPRISSL 2936
    
    Query: 120  KP-KAMQKSFGGNYDXXXXXXXXXXXXSIADESNVPPYVVFNDATLIEMAEQMPITASEM 178
                    A Q+     YD             IAD+ N+P Y+VFNDATL EMA+  P T +EM
    Sbjct: 2937 TSVVAPQRYAIAQYDKDLFARLRFLRKQIADKENIPAYIVFNDATLQEMAQYQPTTKAEM 3116
    
    Query: 179  LSVNGVGMRKLERFGKPFMALIRAH 203
                L++NGVG  K ERF +PFM +I+ H
    Sbjct: 3117 LAINGVGATKFERFAQPFMQIIQQH 3191
    


  2. Нахождение записи EMBL по последовательности с помощью программы BLASTN
  3. AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога RECQ_ECOLI: , а также координаты этого гена согласно аннотации EMBL:

    Для этого создадим в своей директории файл с последовательностью того участка генома, который был найден в предыдущем упражнении как лучший: (файл)

    Затем вырежем найденную в предыдущем задании последовательность в файл:

    seqret -sask
    Reads and writes (returns) sequences
    Input (gapped) sequence(s): ae004439.entret
    Begin at position [start]: 2577
    End at position [end]: 3191
    Reverse strand [N]: Y
    output sequence(s) [ae004439.fasta]:ae004439.fasta

    Полученный на выходе файл: (ae004439.fasta)

    На сайте EBI (http://www.ebi.ac.uk/Tools/) запустим поиск этой последовательности в банке "EMBL standard prokaryote".
    У первой находки (AE004439) был выбран режим "Show aligments". В результате была выдана следующая информация:

    >EM_PRO:AE004439; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete
                genome.
              Length = 2257487
    
     Score = 1110 bits (1230), Expect = 0.0
     Identities = 615/615 (100%)
     Strand = Plus / Minus
    
                                                                            
    Query: 1    gaccccgaccaaatcgctggcaacacagcgtgatttagcgctcgcctattcccccggtgt 60
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 3191 gaccccgaccaaatcgctggcaacacagcgtgatttagcgctcgcctattcccccggtgt 3132
    
                                                                            
    Query: 61   tgcggtcccctgtttagaaatccaagcagatcccgctgcctcttatcgttatacctccag 120
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 3131 tgcggtcccctgtttagaaatccaagcagatcccgctgcctcttatcgttatacctccag 3072
    
                                                                            
    Query: 121  aggcaatttagttgctgtgatttccaatggcacggcggttttaggtttaggcaacattgg 180
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 3071 aggcaatttagttgctgtgatttccaatggcacggcggttttaggtttaggcaacattgg 3012
    
                                                                            
    Query: 181  tgcattagcgggaaaaccggtaatggaagggaaaggggtgttattcaaaaaatttgccgg 240
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 3011 tgcattagcgggaaaaccggtaatggaagggaaaggggtgttattcaaaaaatttgccgg 2952
    
                                                                            
    Query: 241  tgtcaacgtatttgatatcgaaattgacgaaagagatccagataaattagtcgatattat 300
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2951 tgtcaacgtatttgatatcgaaattgacgaaagagatccagataaattagtcgatattat 2892
    
                                                                            
    Query: 301  tgcttcgctagaacccacttttggtggcattaacttggaagatattaaagccccagaatg 360
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2891 tgcttcgctagaacccacttttggtggcattaacttggaagatattaaagccccagaatg 2832
    
                                                                            
    Query: 361  tttctatattgaacaaaaattacgtgagcggatgaaaattcctgttttccatgatgacca 420
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2831 tttctatattgaacaaaaattacgtgagcggatgaaaattcctgttttccatgatgacca 2772
    
                                                                            
    Query: 421  acatggtaccgctattatcagtgctgctgcgattttgaatggcttacgtatcgtgaaaaa 480
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2771 acatggtaccgctattatcagtgctgctgcgattttgaatggcttacgtatcgtgaaaaa 2712
    
                                                                            
    Query: 481  agacattgccaaggttaaattgattgcctcgggcgcgggtgccgcatcgattgcgtgttt 540
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2711 agacattgccaaggttaaattgattgcctcgggcgcgggtgccgcatcgattgcgtgttt 2652
    
                                                                            
    Query: 541  aaatttattggtcagtttaggtttaccgcgtgaaaatattatcgtctgtgattcaaaagg 600
                ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 2651 aaatttattggtcagtttaggtttaccgcgtgaaaatattatcgtctgtgattcaaaagg 2592
    
                               
    Query: 601  ggtgattttccatgg 615
                |||||||||||||||
    Sbjct: 2591 ggtgattttccatgg 2577
    


    В записи AE004439 последовательность имеет координаты 3191-2577.
    В участке, соответствующем приведенным выше координатам, в поле FT содержится следующая информация:
    FT   CDS             complement(983..3259)
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="mdh_1"
    FT                   /locus_tag="PM0002"
    FT                   /product="Mdh"
    FT                   /db_xref="GOA:Q9CPN5"
    FT                   /db_xref="InterPro:IPR016040"
    FT                   /db_xref="UniProtKB/TrEMBL:Q9CPN5"
    FT                   /protein_id="AAK02086.1"
    FT                   /translation="MDAQLRQAALDFHEFPTPGKIEVTPTKSLATQRDLALAYSPGVAV
    FT                   PCLEIQADPAASYRYTSRGNLVAVISNGTAVLGLGNIGALAGKPVMEGKGVLFKKFAGV
    FT                   NVFDIEIDERDPDKLVDIIASLEPTFGGINLEDIKAPECFYIEQKLRERMKIPVFHDDQ
    FT                   HGTAIISAAAILNGLRIVKKDIAKVKLIASGAGAASIACLNLLVSLGLPRENIIVCDSK
    FT                   GVIFHGRDERMDETKKLYAIEDNGKRTLAEVINDADIFLGCSAAGTLTQDMVKTMAANP
    FT                   LILALANPDPEILPPLAKAVRPDAIVCTGRSDYPNQVNNVLCFPFIFRGALDVSATAIN
    FT                   EEMKLAAVHAIADLALAEQSEVVTSAYGETELSFGPEYLIPKPFDPRLIVKIAPAVAKA
    FT                   AMDSGVATRPIKDFDAYIEKLTQFVYKTNLFMKPVFAQAKQNKKRVLLTDGEESRVLHA
    FT                   VQEIATLGIATPILLGRPSVIAQKIKQLGLHIQEGRDFELVDIENNPYFEECYKTYHNL
    FT                   LKRKGITPAGAQRKMLHNPTVIGATLLQLGKADAMLCGLVGPYASHLSNIKEVIGVQPC
    FT                   VPTPATVNGLVLPTGNLFITDTFVNHNPTAQELAEITIMAANEVSRFGIEPKVALVSHS
    FT                   NFGTFDDPSAVKMREVLHLVKEKAPDLIIDGEMHCDVALNEKLRQDIMPDSPLKGAANL
    FT                   LVMPNMEAARISLNLLQGTATPITVGPILMGMNKPVHILTSASSVRRIINMVAIAAANV
    FT                   EPTCK"
    

    Участок является частью аннотированной кодирующей последовательности (CDS), координаты CDS : 983 - 3259, соответствует Q9CPN5 записи банка UniProt.

  4. Поиск гомологов с помощью программы BLASTN


  5. Создадим fasta-файл с последовательностью из генома E.coli, кодирующей RECQ_ECOLI:

    Поищем гомологи этого гена в геноме Pasteurella multocida программой BLASTN.
    Для этого сначала выберем запись AP009048, программой ENTRET получим файл ap009048.entret, затем вырежем программой seqret участок последовательности, соответствующий 3628988-3630817 CDS.
    В результате получим файл: ap009048.fasta
    Затем этот файл дадим на обработку программе BLASTN для поиска гомологов в геноме Pasteurella multocida.
    Введём следующую последовательность команд:

    blastall -p blastn -d index -i ap009048.fasta > ap009048-pm

    Полученный файл: ap009048-pm

    Первоначально, поставив порог E-value=0.001, BLASTN не нашёл ни одного гомолога. Затем, изменив порог на 10.0, было получено 13 результатов, среди них E-Value лучшей находки составляет 0.013.
    Название геномной последовательности: AE006179
    Координаты выравнивания: 1593-1627
    Лучшая находка:

    Query: 214  tcaccgctgatttcgttgatgaaagatcaggtgga 248
                ||||| ||||| ||||| ||||||||||| |||||
    Sbjct: 1593 tcaccactgatctcgttaatgaaagatcaagtgga 1627
    

    Сравним найденный TBLASTN и BLASTN белок AE006179:

    TBLASTN BLASTN
    AE006179 E-value: 9*10-63

    Координаты в банке: 2577..3191

    Длина: 614
    E-value: 0.013

    Координаты в банке: 1593..1627

    Длина: 34


    Последовательность, найденная BLASTN в несколько раз короче поледовательности, найденной TBLASTN.
    E-value найденного TBLASTN белка намного меньше, что лучше, чем E-Value BLASTN.
    Следовательно, можно сделать вывод, что поиск гомологов по нуклеотдидной последовательности более точен по сравнению с поиском гомологов по аминокислотной последовательности