Зачетное задание.


Дано:неаннотированный фрагмент генома бактерии Yersinia mollaretii.
Задание:определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).
C помощью программы seqret с опцией -sask получен фрагмент генома бактерии Yersinia mollaretii длиной в 7000 нуклеотидов ( в моем случае с 70000 по 77000 нуклеотид).
Основное задание-определить, есть ли в этом фрагменте гены, кодирующие белки,похожие на известные белки бактерии Escherichia coli K-12.
  1. Задание 1.Инструменты для решения поставленной задачи: -получение полного протеома E.Coli из Swiss-Prot при помощи команды
    seqret sw:*_Ecoli(программа записала в файл ecoli.fasta все белки,имеющих ID, заканчивающееся на Ecoli); -создание индексных файлов для последующего поиска программами пакета Blast:
    formatdb -i ecoli.fasta -p T -n ecoli

  2. Задание 2.Получение трансляций всех открытых рамок считывания:
    Программа getorf с опциями
    getorf -minsize 240 -table 11 -find 1 -sequence aald01000001.fasta
    (стандартный для бактерий генетический код - опция -table 11,открытая рамка считывания-принята последовательность между старт- и стоп-кодонами- опция -find 1)
    позволяет получить файл , в котором содержатся все аминокислотные последовательности, полученные трансляцией всех открытых рамок считывания длиной не менее 240 нуклеотидов.
  3. Задание 3.Поиск сходных последовательностей у E.coli:
    При помощи команды
    blastall -p blastp -d ecoli -i aald01000001.orf -e 0.001 -m 8 -o out1.txt
    был получен файл с определением последовательностей из Е.coli, cходных с исходными 13 аминокислотными последовательностями из бактерии Yersinia mollaretii.
    (Программа blastp пакета BLAST(в данном задании с параметром E-value<0,001) позволяет искать гомологов белковой последовательности по банку белковых последовательностей.)
    Скрипт,для получения информации о числе сходных последовательностей.
    После запуска скрипта был получен соответствующий файл output2.txt.
    При помощи данного файла была получена таблица.

    Таблица,содержащая данные только по тем открытым рамкам считывания,для которых нашлась хотя бы одна сходная последовательность.
    РамкаНазваниеНачало КонецНаправлениеЧисло найденных сходных последовательностейИдентификтор самой близкой находки из EcoliE-value
    3AALD01000001_316603012Прямое3IDH_ECOLI0.0
    6AALD01000001_650875797Прямое1YNFC_ECOLI1е-28
    7AALD01000001_767335876Обратное5YBJI_ECOLI5е-84
    10AALD01000001_1016431008Обратное4RLUE_ECOLI5е-88
    11AALD01000001_111012569Обратное3NUDJ_ECOLI1е-69
    13AALD01000001_134471Обратное1TRMU_ECOLI(MNMA_ECOLI-cоответствующий ген-"mnma")5е-86

  4. Схематическое положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.


    Для данных шести открытых рамок считывания нашлись сходные последовательности в E.coli.
    Для найденных последовательностей 2 открытые рамки располагаются в прямом направлении,а 4 в обратном.
    Кроме того, 10 и 11 рамки,считывающиеся в обратном направлении,имеют общие нуклеотиды, то есть перекрываются между собой.

    Гипотетические гены во фрагменте 1-7000 записи AALD01000001

    5'---------------------------------------------[=>icd,1660-3012]-------------[=>ynfC,5087-5797]------------------------3'
    
    3'-------------------------[<=rluE,1008-1643]----------------------------------------------------[<=ybjI,5876-6733]----5'
    
    3'[<=trmU,1-447]--[<=nudJ,569-1012]------------------------------------------------------------------------------------5'
    
  5. Сравнение взаимного расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.

    Посмотрим, как расположены гены E.coli, гомологичные нашим:
    ГенНачало 5'Конец 3'
    icd119 4346119 5596
    ynfC165 5481165 4771
    ybjI88 5354 88 4539
    rluE119 4174119 3521
    nudJ119 3511119 3050
    trmU119 2996119 1890


    Гены во фрагменте 885354 - 1655481 генома E.coli

    5'------------------------------------------------------------------------------------------------------[=>icd,1194346-1195596]---------------------------3'                                                                                                                         
    
    3`-[<=ybjI,884539-885354]-----<=trmU,1191819-1192996]-[<=nudJ,1193050-1193511]-[<=rluE,1193521-1194174]---------------------------[<=ynfC,1654771-165481]-5`
    
    
    
    

    Другое изображение расположения генов (при помощи EcoGene).

    Примечание:на картинке изображены только 4 гена,находящиеся в области 1190.0-1196.0 kb, участок генома дан в направлении 5`-> 3`.Ген "mnma" есть ген "trmU".
    Порядок расположения генов в E.Coli относительно предполагаемого фрагмента сохраняется частично (гены "trmU","nudJ","rluE" расположены друг за другом и cчитываются в одинаковом направлении, кроме того ген "icd" расположен на другой цепи и считывается в противоположном направлении,как и в рассматриваемом фрагменте). Однако гены "ybjI","ynfC" поменяли свое расположение и направление считывания (ген "ynfC").
    Таким образом, можно сделать предположение о достаточной консервативности расположения генов "trmU","nudJ","rluE", но не генов "ybjI","ynfC".
    Кроме того,в отличие от Yersinia mollaretii, в Е.Coli не происходит перекрывание данных генов,то есть рамки считывания не накладываются друг на друга.
    Это можно объяснить тем,что геном Yersinia mollaretii короче генома E.Coli, потому упаковка белков в Yersinia mollaretii идет более плотно, то есть чаще наблюдается перекрывание генов.
Главная страница
Третий семестр


© Литвинчук Александра, 2008