Определение неаннотированного фрагмента генома бактерии Yersinia mollaretii

Для исследования был задан фрагмент генома бактерии Yersinia mollaretii длиной в 7000 нуклеотидов (с 42001 по 49001 нуклеотиды). Он был получен через Putty при помощи программы seqret с опцией -sask. Требовалось определить, есть ли в этом фрагменте гены, кодирующие белки, похожие на известные белки бактерии Escherichia coli K-12.
  1. Определение инструментов для решения поставленной задачи

    Перед тем, как начинать поиск, необходимо было получить из Swiss-Prot полный протеом E.coli. Это было сделано при помощи команды seqret sw:*_Ecoli, которая записала в указанный в параметрах файл (ecoli.fasta) последовательности всех белков, имеющих ID, заканчивающееся на Ecoli.
    Далее необходимо было создать индексные файлы для последующего поиска программами пакета BLAST: команда
    formatdb -i ecoli.fasta -n ecoli -p T
  2. Получение трансляций всех открытых рамок считывания

    При помощи программы getorf надо было получить файл, в котором содержатся все аминокислотные последовательности, полученные трансляцией всех открытых рамок считывания длиной не менее 240 нуклеотидов из интересующей нас нуклеотидной последовательности. При этом использование стандартного для бактерий (bacterial) генетического кода и определение открытой рамки как последовательности между старт- и стоп-кодонами обусловило параметры, подаваемые программе getorf:
    getorf -table 11 -minsize 240 -find 1 -sequence seq.fasta.
    Выходной файл программы содержит 20 аминокислотных последовательностей - ровно столько открытых рамок считывания нашлось getorf'ом.
  3. Поиск сходных последовательностей у E.coli

    Для выполнения поставленной задачи была использована программа blastp пакета BLAST, т.к. она позволяет искать гомологов белковой последовательности по банку белковых последовательностей. Нас интересовали находки с E-value<0,001, что определило значение входного параметра e программы blastp.
    В итоге командой
    blastall -p blastp -d ecoli -i getout.orf -o out.txt -e 0.001 -m 9
    был получен файл с определением сходных последовательностей. Из этого файла хотелось разумным образом получить информацию о числе сходных последовательностей. Для чего и был написан соответствующий скрипт, считающий количество строк с некой последовательностью символов. Результатом его работы является файл count.txt. Используя данные из него, а также из файла выдачи программы getorf можно составить таблицу, содержащую некоторые полезные данные.
    Немного модифицировав ее, получим следующую таблицу, содержащую данные только по тем открытым рамкам, для которых нашлась хотя бы одна сходная последовательность:

    Рамка	Начало 	Конец 	Направление	Число сходных	ID Ecoli	E-value
    1	146	898	прямое  	   4       	MTGA_ECOLI	6E-86
    8	4636	5553	прямое  	   1       	YRAL_ECOLI	3E-110
    15	4690	2621	обратное	   1       	YRAM_ECOLI	0
    16	2584	2234	обратное	   1       	YRAN_ECOLI	2E-32
    17	2182	1589	обратное	   2       	DIAA_ECOLI	3E-104
    19	1620	1003	обратное	   2        	YRAP_ECOLI	6E-60
    
  4. Схематическое положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.

    Итак, для шести открытых рамок считывания нашлись сходные последовательности в E.coli. Причем 2 открытые рамки располагаются в прямом направлении и 4 в обратном. Рамки 17 и 19, лежащие в обратном направлении, имеют общие нуклеотиды, т.е. пересекаются по последовательности. Поэтому схематически положение открытых рамок на нашем фрагменте из 7000 нуклеотидов можно изобразить следующим образом:

    Гипотетические гены во фрагменте 1-7000 записи AALD01000002

    5'-[=>mtgA,146-898]------------------------------------------------------------------------[__=>yraL,4636-5553__]----3'
    
    3'----------------------------[<=diaA,1589-2182]-[<=yraN,2234-2584]-[____<=yraM,2621-4690_____]----------------------5'
    3'----------------[<=yraP,1003-1620]---------------------------------------------------------------------------------5'
    
  5. Сравнение взаимного расположения предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.

    Посмотрим, как расположены гены E.coli, гомологичные нашим, на геноме E.coli:
    Ген	Начало 5' 	Конец 3'
    mtgA	334,7831	334,7103
    yraL	329,1357	329,0497  
    yraM	329,1422	329,3458
    yraN	329,3416	329,3811
    diaA	329,3831	329,4421
    yraP	329,4431	329,5006
    

    (запятыми отделены порядки для удобного сравнения)
    Видно, что в геноме кишечной палочки ген mtgA удален он группы остальных генов на значительное расстояние, т.е. в данном случае говорить о консервативности расположения генов не имеет особого смысла. Поэтому далее будем рассматривать взаимное расположение оставшихся пяти генов.

    Гены во фрагменте 3290000 - 3295006 генома E.coli

    5'-------------------------------------------------------------------------------------[=>yraL,497-1357]---3'
    
    3'-[<=yraP,4431-5006]-[<=diaA,3831-4421]-[<=yraN,3416-3811]------------------------------------------------5'
    3'-----------------------------------------------------[______<=yraM,1422-3458______]----------------------5'
    
    При сравнении расположения пяти гомологичных генов E.coli и Y.mollaretii нужно отметить, что общий внешний вид их расположения у двух бактерий достаточно похож: гены не удаляются друг от друга далеко, ген yraL и его гомолог лежат на одной цепи, остальные гены - на другой, не меняется общий порядок последовательного расположения генов при перемещении по цепям в одном направлении. Что же касается различий, их можно в общем описать как небольшие сдвиги генов друг относительно друга (до десятков нуклеотидов). Например, в геноме E.coli гены diaA и yraN отстоят друг от друга на 20 нуклеотидов, тогда как у бактерии Y.mollaretii - на 52. Другие пары генов имеют перекрывание в геноме одной бактерии и не имеют - в другой. Например, yraP и diaA в E.coli отстоят на 10 нуклеотидов, а в Y.mollaretii перекрываются на 32. И наоборот, гены yraN и yraM перекрываются на 43 нуклеотида в E.coli и отстоят на 26 нуклеотидов у Y.mollaretii. Ген yraL, лежащий на другой цепи, перекрывается с yraM в Y.mollaretii и не перекрывается в E.coli.
    Несмотря на такие перемещения, все же мне кажется, что рассматриваемая группа генов является достаточно консервативной.
Главная страница
К работам третьего семестра


© Денисенко Елена, 2007