Программы пакета BLAST для работы с нуклеотидными последовательностями.

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный.

  2. Создание индексных файлов пакета BLAST для поиска по заданному геному:
    formatdb -i pm_genome.fasta -p F -n pm
    Поиск по TBLASTN с порогом на E-value 0,001:
    blastall -p tblastn -d pm -i hslv_ecoli.fasta -e 0.001 -o output.txt

    Поиск гомологов белка HSLV_ECOLI в геноме бактерии Pasteurella multocida

    Число находок с Е-value<0,001 1
    Характеристика лучшей находки: Score = 244 bits, Identities =73%, Positives = 82%, Gaps = 0% Frame = -3
       E-value находки 3e-66
    AC соответствующей записи EMBL AE006212
    Координаты выравнивания в записи EMBL 4452-4970
    Координаты CDS в записи EMBL (если есть) 4440..4970
    AC UniProt для этого CDS (если есть) P57969


    Вывод:
    Программа находит только один белок-гомолог исходного белка HSLV_ECOLI.

  3. Аналогичный поиск сразу в нескольких геномах

  4. Создание индексных файлов пакета BLAST для поиска по трем заданным геномам бактерии Pasteurella multocida, сальмонеллы Salmonella typhimurium , возбудителя черной гнили капусты Xanthomonas campestris :
    formatdb -i pm_genome.fasta" "st_genome.fasta" "xc_genome.fasta -p F -n pm_st_xc
    Поиск по TBLASTN с порогом на E-value 0,001:
    blastall -p tblastn -d pm_st_xc -i hslv_ecoli.fasta -e 0.001 -o pm_st_xc_tblastn.txt
    Найдено 3 последовательности с E-value < 0,001:
    -AE006468 из Salmonella typhimurium с E-value=5e-85
    -исходный AE006212 из Pasteurella multocida с новым E-value=1e-65
    -AE008922 из Xanthomonas campestris с E-value=4e-54

    Вывод:
    Программа находит 3 записи из трех разных организмов,которые кодируют последовательности белков,гомологичных исходному белку HSLV_ECOLI. E-value записи AE006212 из Pasteurella multocida увеличивается практически в 3 раза, так как в данном случае проводится поиск по трем базам данных.

  5. Поиск гомологов с помощью программы BLASTN в трех геномах.

  6. Fasta-файл с последовательностью из генома E.coli, кодирующей белок HSLV_Ecoli (запись EMBL: AAC76914 , координаты соответствующей CDS (4119780..4120310) вырезаны программой seqret).
    Найдено 2 последовательности (с E-value < 0,001):
    -AE006468 из Salmonella typhimurium с E-value=e-160. Это лучшая находка.
    -исходный AE006212 из Pasteurella multocida с новым E-value=3e-04
    Если запустить программу blastn без параметра E-value, то также найдется запись AE008922 из Xanthomonas campestris с E-value=0.32

    Вывод:
    Программа BLASTN с параметром с E-value < 0,001 находит только 2 записи,которые кодируют последовательности белков,гомологичных исходному белку HSLV_ECOLI. Среди этих записей есть запись AE006212 из Pasteurella multocida, ее e-value больше,чем в предыдущих двух упражнениях.
    Самой лучшей находкой в данном случае является запись AE006468 из Salmonella typhimurium с E-value=e-160.Score этого выравнивания =561, против 44 для второй записи в выборке.

Главная страница

Первый семестр

Второй семестр

Третий семестр

©Александра Литвинчук,2008