Самостоятельная работа по аннотированию участка генома.


Дано: неаннотрованный участок генома бактерии Streptococcus pneumoniae (штамм TIGR4 ctg00822) из заданной записи EMBL с заданным началом, длиной 7000 нуклеотидов.
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии - Bacillus subtilis (сенной палочки).

  • Полный протеом B. subtilis получили из Swiss-Prot c помощью seqret sw:*_BACSU.
  • Создали индексные файлы для поиска программами пакета BLAST с помощью команды formatdb.
  • Вырезали фрагмент AAGY02000007 длиной 7000 нуклеотидов(координаты 21001...27001), используя seqret -sask.
  • Извлекли из нашего фрагмента генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов командой:
    getorf -sequence mygenes.fasta -minsize 240 -table 11 -find 1 -outseq mygenes.orf
  • В результате получили 13 рамок считывания.
  • Далее производился поиск трансляций рамок считывания из выбранного фрагмента по протеому бактерии с помощью программы BLASTP.Команда:
    makeblastdb -in proteome_bacsu.fasta -out bacsu -dbtype prot
    blastp -query mygenes.orf -db bacsu -evalue 0.001 -out align -task blastp -outfmt 7
    Exel-result

    Открытые рамки.

    Рамка начало во фрагменте конец во фрагменте направление число сходных последовательностей идентификатор самого близкого из найденных белков B. subtilis E-value
    AAGY02000007.1_1 16 279 прямое 1 RECR_BACSU 3e-29
    AAGY02000007.1_3 416 1498 прямое 3 DDL_BACSU 4e-84
    AAGY02000007.1_6 2945 3553 прямое 3 YJHB_BACSU 8e-38
    AAGY02000007.1_8 4570 5940 прямое 3 FTSA_BACSU 4e-79
    AAGY02000007.1_9 5957 7000 прямое 1 FTSZ_BACSU 1e-100

    Гипотетические гены во фрагменте.

    Streptococcus pneumoniae
    3'-----------------------------------------------------------------------------------------------------------------------5'
    5'-[=> RECR,16-279]----[=> DDL,416-1498]--------[=> YJHB,2945-3553]---------[=> FTSA, 4570-5940]-[=> FTSZ, 5957-7000]----3'
    
    Bacillus subtilis (построен с помощью TBLASTN)
    3'------------------------------------------------------------------------------------------------------------------------------------------------------------5'
    5'---------[=> RECR,28867-29460]----[=> DDL,508248-509309]--------[=> YJHB,1290018-1290641]---------[=> FTSA, 1596474-1597793]-[=> FTSZ, 1597832-1598977]-----3'
    

    Полученные модели геномов показали сходное расположение генов (причем даже соотношение расстояний между генами примерно одинакого). Это свитетельствует о консервативности данных генов. Также белки FTSA FTSZ могут контролироваться одним регуляторным участком и синтезироваться вместе, из-за малого расстояния между ними в обоих организмах.
    © Nikolay Kondratev