Зачётная работа по BLAST

Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii
Задача: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).

Алгоритм выполнения работы

  1. Получение фрагмента генома бактерии Yersinia mollaretii :
    seqret -sask
    Input (gapped) sequence(s): aald01000003.embl
    Begin at position [start]: 54001
    End at position [end]: 61001
    Reverse strand [N]: N
    output sequence(s) [aald01000003.fasta]: aald01000003.fasta

    Программа вырезает фрагмент генома Yersinia mollaretii с 54001 по 61001 нуклеотид в 5'-3'-направлении.

  2. Получение полного генома бактерии Escherichia coli K-12:
    sw:*_ECOLI > all_ecoli.fasta
  3. output sequence(s) [3mg1_ecoli.fasta]:3mg1_ecoli.fasta

  4. Создание индексных файлов:
    formatdb -i 3mg1_ecoli.fasta -p T -n out

  5. Извлчение из вырезанного фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов:
    getorf -table 11 -minsize 240 -find 1
    Input nucleotide sequence(s): aald01000003.fasta
    protein output sequence(s) [aald01000003.orf]: aald01000001.orf
    Выходной файл программы aald01000003.orf содержит 17 аминокислотных последовательностей, закодированных найденными рамками.

  6. Поиск сходных последовательностей у E.coli c E-value < 0,001:
    blastall -p blastp -d out -i aald01000003.orf -m 9 -e 0.001 -o results.txt
  7. Для подсчета найденных гомологов использован скрипт.
    Выходной файл - finalresult.txt
  8. На основе полученного результата была создана таблица открытых рамок, для которых нашлась хотя бы одна сходная последовательность:

    Для пяти открытых рамок считывания были найдены сходные последовательности в E.coli: 3 располагаются в прямом направлении, 2 - в обратном.

  9. Схематическое изображение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E.coli:
    Гипотетические гены во фрагменте 54001-61001 записи AALD01000003:
    3' ----[<= ген gcsp, 519-1769]------[<= ген hcat, 2008-3180]------------------------[<= ген rcna, 5256-6293]-------------------------- 5'                                                                                                                                                                                                                                         
    5' --------------------------------------------------------[=> ген csie, 4559-3183]-------------------------[=> ген suhb, 6983-6372]-- 3'                                                                                                                                                                                                                                              
    

  10. Расположение гомологичных генов в геноме E.coli:
    В геноме E.Coli были найдены соответствующие гены. Все они направлены от 3' к 5' концу. Причём гены suhb, scie, и hcat находятся в непосредстенной близости друг от друга, в то время как гены gcsp и rcna значительно удалены от этого массива.
    3' --[=>ген rcna, 2861632-2862471]---[=> ген suhb, 3383943-3384746]----- [=> ген csie, 3385915-3387216]--[=> ген hcat, 3387208..3388347]---[=> ген gcsp, 3786288-3786677]--- 5'      

Третий семестр


©Черниогло Елена