учебный сайт Вероники Владыкиной

Программы пакета BLAST для работы с нуклеотидными последовательностями

на главную
1 семестр
2 семестр
3 семестр
проекты
официальный сайт ФББ
  1. Поиск в геноме участков, кодирующих белки, похожие на заданный

    Найдем в геноме Pasteurella multocida участки, кодирующие белки, похожие на IHFA_Ecoli (с E-value < 0.001) с помощью программы tblastx
    Чтобы это сделать, напишем команду: blastall -p tblatn -d pm -i ihfa_ecoli.fasta -o ihfa_in_pm.blast -e 0.001

    Поиск гомологов белка IHFA_Ecoli в геноме бактерии Pasteurella multocida

    Число находок с Е-value<0,001 3
    Характеристика лучшей находки:  
       E-value находки 7e-37
    Название геномной последовательности AE006099
    Координаты выравнивания(-ий) в найденной последовательности [5798:5508]
    в ходе работы получен файл ihfa_in_pm.blast с результатами работы tblastx
  2. Нахождение записи EMBL по последовательности с помощью программы BLASTN

    Определим AC записи нынешнего релиза EMBL, в которую попадает найденная в предыдущем упражнении последовательность гена гомолога моего белка, а также координаты этого гена согласно аннотации EMBL.
    Для этого запустим поиск этой последовательности в банке "EMBL standard prokaryote".
    Это AE004439, участок [730356:730646]
    В поле FT содержится инфлрмация о гене himA, расположенном на комплементарной цепи на участке (730350..730646).
    Наш участок является частью CDS участка, комплиментарного (730350..730646), соответствующей записи белка Q9CN18 в UniProt.
  3. Поиск гомологов с помощью программы BLASTN

    возьмем запись AP009048, на которую ссылается запсиь о моем белке в SwissProt. В ней найдем участок CDS, соответствующий данному белку: это участок, комплементарный (1796967..1797266).
    соответствующей CDS и вырежем и запишем программой seqret в отдельный файл ihfA_gene.fasta).
    Поищем гомологов с помощью blastn. Получили файл ihfa_gene_in_pm.blast

    Число находок с Е-value<10 23
    Характеристика лучшей находки:  
       E-value находки 0.13
    Название геномной последовательности AE006206
    выравнивание
     
    Query: 180  cgttttccagagcgcg 195 
                ||||||||||||||||     
    Sbjct: 8713 cgttttccagagcgcg 8698
    
    координаты находки в последовательности AE006206

    Как мы видим, blastn дает весьма непригодные результаты - лучший E-value 0.13 - это уже практически и не гомолог. участок выравнивания очень короткий (всего 15 нуклеотидов), в переходе к белкам просто смешно говорить здесь о каких-то гомологах.
    Таким образом, мы в очередной раз подтвердили, что blastn совершенно непригоден для поиска гомологов.

Владыкина 2008