Программы пакета BLAST для работы с нуклеотидными 
последовательностями


  1.  Поиск в геноме участков, кодирующих белки, похожие на заданный

    Мы знаем аминокислотную последовательность последовательность белка RimN_Ecoli из Escherichia coli K-12. Задача - определить, закодированы ли похожие белки в геноме Pasteurella multocida, не пользуясь аннотацией генома.
    Для этого создадим индексные файлы с помощью программы formatdb:
    formatdb -i pm_genome.fasta -p F -n pm;
    Далее, используем программу TBLASTN и проведем с ее помощью поиск с порогом на E-value 0,001.
    В результате получим выходной файл output.txt.
    Результаты оформим в виде таблицы:

    Поиск гомологов белка RimN_Ecoli в геноме бактерии Pasteurella multocida:

    Число находок с Е-value<0,001 2
    Характеристика лучшей находки:  
       E-value находки 2e-52
    Название геномной последовательности Pasteurella multocida subsp. multocida str.
    (Pm70 section 133 of 204 of the complete genome)
    Координаты выравнивания(-ий) в найденной последовательности RimN_Ecoli: 10-190;
    AE006166: 1261-1803

  2. Нахождение записи EMBL по последовательности с помощью программы BLASTN

    Попытаемся определить AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога белка RimN_Ecoli, а также координаты этого гена согласно аннотации EMBL.
    Для этого воспользуемся программой seqret. В результате получим выходной файл ae006166.fasta.
    Далее, на сайте EBI запустим поиск этой последовательности в банке "EMBL standard prokaryote". Выясним, что AC этой записи: AE00443, а координаты находки: 1462583...1463125 В результате получим:

     
              AC: AE004439                                      
    
              FT   gene            1462577..1463128                                            
              FT                   /locus_tag="PM1270"                                         
              FT   CDS             1462577..1463128                                            
              FT                   /codon_start=1                                              
              FT                   /transl_table=11                                            
              FT                   /locus_tag="PM1270"                                         
              FT                   /product="unknown"                                          
              FT                   /db_xref="GOA:Q9CLG4"                                       
              FT                   /db_xref="HSSP:1HRU"                                        
              FT                   /db_xref="InterPro:IPR006070"                               
              FT                   /db_xref="InterPro:IPR017945"                               
              FT                   /db_xref="UniProtKB/Swiss-Prot:Q9CLG4"                      
              FT                   /protein_id="AAK03354.1"                                    
              FT                   /translation="MNIQQIVEQLKQNEVVAYPTEAVFGLGCNPNSESAVQKLLVLKQR 
              FT                   SVEKGLILVAPCLDYFLPFIDTTAFSQADWDRLQAKYDRPTTWVVPAKTTTPKFLTGQF 
              FT                   DSIAVRLCDHPAVKQLCEQAGFALTSTSANLTTLPPCRTAEEVKTQFGADFPVLDLPVG 
              FT                   EATNPSEIRDLFTHQLFRQG"                                       
    
              

    Данный участок является частью аннотированной кодирующей последовательности (CDS) с координатами: 1462577..1463128 на комплементарной цепи. Запись банка UniProt, которой она соответствует: Q9CLG4.

  3. Поиск гомологов с помощью программы BLASTN

    Возмем одну из записей EMBL, на которую ссылается запись Swiss-Prot: U18997. Определим координаты CDS и вырежем ее программой seqret. Получим u18997.fasta с последовательностью из генома E.coli, кодирующей белок RimN_Ecoli.
    Найдем гомологов этого гена в том же геноме, что в упражнении 1, но программой BLASTN:
    blastall -p blastn -d pm -i ae003852.fasta -e0.1 -o out2.txt ;
    В результате получим выходной файл out2.fasta. Проанализируем разультат:

    Число находок с Е-value<0,1 12
    Характеристика лучшей находки:  
       E-value находки 0.24
    Название геномной последовательности Pasteurella multocida subsp. multocida str. Pm70 section 26 of 204 of the complete genome.
    Координаты выравнивания(-ий) в найденной последовательности RimN_Ecoli: 85-100,
    AE006059: 934-919;


    Как видно, blastn выдает плохое выравнивание: небольшая длина (25 нк), плохое e-value. А если переходить к белкам, то это вообще трудно назвать гомологом.
    Сравним результаты поиска:

    Программа TBLASTN BLASTN
    Число находок 2 12
    E-value лучшей находки 2e-52 0.24
    Координаты выравнивания 1261-1803 934-919
    Длины выравниваний 542 25
    Название геномной последовательности Pasteurella multocida subsp. multocida str. (Pm70 section 133 of 204 of the complete genome) Pasteurella multocida subsp. multocida str. Pm70 section 26 of 204 of the complete genome


    Несмотря на то, что TBLASTN нашел всего 2 последовательности (учитывая, что в первом случае мы ставили порог на e-value), эти выравнивания намного лучше и точнее, чем у BLASTN. Можно сделать вывод, что поиск по аминокислотной последовательности лучше.


© Азнаурян 2008 marina-91@list.ru