Программы пакета BLAST для работы с нуклеотидными последовательностями

  • Поиск в геноме участков, кодирующих белки, похожие на заданный
  • Зная аминокислотную последовательность белка PYRD_Ecoli из Escherichia coli K-12. Можно определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.

    Для этого создаются индексные файлы пакета BLAST для поиска по заданному геному:
    formatdb -i pm_genome.fasta -p f -n pmu

    Где прараметр
    -i = файл для которого создаются индексные файлы.
    -p = тип файла (t- белоковый, f-нуклеодитный)
    -n = базовое имя

    Далее при помощи программы tblastn из пакета BLAST проведиться поиск гомологов белка в неаннотированных нуклеотидных последовательностях с порогом E-value 0,001.

    blastall -p tblastn -d pmu -i pyrd_prot.fasta -o pyr_D.txt -e 0.001 Где прараметр
    -p = имя программы из пакета BLAST
    -d = базовое имя индексных файлов
    -i = имя файла,содержащегог, то что будем искать в фаста-формате.
    -o= имя выходного файла
    -e=порог E-value

    Поиск гомологов белка <PYRD_Ecoli > в геноме бактерии Pasteurella multocida.

    Число находок с Е-value<0,001     1    
    Характеристика лучшей находки:  
       E-value находки   e-113
    AC соответствующей записи EMBL  AE006098
    Координаты выравнивания(-ий) в записи EMBL   5999-4989
    Координаты CDS в записи EMBL (если есть)  complement(4983..6002)
    AC UniProt для этого CDS (если есть)  UniProtKB/Swiss-Prot:P57858

  • Аналогичный поиск сразу в нескольких геномах
  • Создаются индексные файлы BLAST для поиска по всем трем геномам сразу.

    Создаются переменные описывающие путь к файлам , для которых будут создаваться индексные.
    genpath=/home/export/samba/public/y07/Term3/EMBL
    genomes="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta"

    Создание самих индексных файлов и поиск.
    formatdb -i "$genomes" -p f -n all
    blastall -p tblastn -d all -i pyrd.fasta -o all.txt -e 0.001

    Число находок с Е-value<0,001     3    
    Название организма:  Salmonella typhimurium LT2  Pasteurella multocida  Xanthomonas campestris
       E-value находки   e-178   e-113   3e-85
    AC соответствующей записи EMBL   AE006468 |AE008746|   AE006098   AE008922 |AE012280
    Координаты выравнивания(-ий) в записи EMBL   184-1191   5999-4989   9544-8540
    Координаты CDS в записи EMBL (если есть)  184..1194  complement(4983..6002)  complement(8492..9547)
    AC UniProt для этого CDS (если есть)  UniProtKB/Swiss-Prot:P25468  UniProtKB/Swiss-Prot:P57858   UniProtKB/Swiss-Prot:Q8P9R0

    Таким образом во всех 3х геномах были найдены участки, кодирующие сходные заданному белки.

  • Поиск гомологов с помощью программы BLASTN
  • Создаeм fasta-файл с последовательностью из генома E.coli, кодирующей белок pyrD .(для этого надо взять одну из записей EMBL, на которую ссылается ваша запись Swiss-Prot, найти в ней координаты соответствующей CDS и вырезать последнюю программой seqret в отдельный файл).

    И задаем поиск гомологов этого гена в трёх геномах программой BLASTN.

    1)
    blastall -p blastn -d all -i gene_pyrd.fasta -o all_blastn.txt -e 0.001
    Поиск гомологов с e-value меньше 0.01.Результат.
    2)
    blastall -p blastn -d all -i gene_pyrd.fasta -o all_blastn2.txt
    Поиск гомологов без органичения e-value .Результат.

    Для обоих поисков лучшей является находка из Salmonella typhimurium LT2 (AE008746 ,AE006468 ,AE008746) , имеющая E-value 0.0. Эта же находка являлась лучшей и в поске по белковой последовательности, хотя и с несколько худшим E-value (e-178).
    Аннотация соответствующего фрагмента генома Salmonella typhimurium LT2 приведена здесь Надо заметить, что фрагмент ,кодирующий белок P0A7E1 в Е. coli имеет схожую аннотацию (ген pyrD) . В частности одинаковые ссылки в InterPro, таким образом эти участи имеет не только сходную нуклеотидную , белковую последовательности , но и сходные аминокислотные мотивы в последней.

    Последующие находки имееют очень большое E-value, поэтому делать вывод о том, кодируют ли эти участи схожие белки нельзя.Например, вторая по счету находка во втором задании найдена вообще не была, а третья находка была найдена шестой с E-value 2.4 против 3e-85 при поиске tblastn. Это происходит из-за того, что 1 аминокислоту могут кодировать 3 разных триплета , т.е схожие белковые последовательности могут кодироваться довольно далекими нуклеотидными последовательностями. А программа blastn ищет заданную последовательность в банке, поэтому вторая находка из 2 упр. вообще не была найдена, а 3 имеет плохой E-value .Тот факт, что наиболее похожую нуклеотидную последовательность к E.coli имеет Salmonella typhimurium неудивителен, т.к она согласно филогенетическому дереву бактерий располагается к E.coli гораздо ближе, чем Pasteurella multocida и Xanthomonas campestris.

    Главная страница Третий семестр


    ©Петрова Светлана,2008