Определение неаннотированного фрагмента генома бактерии Yersinia mollaretii
Для исследования был задан фрагмент генома
бактерии Yersinia mollaretii
длиной в 7000 нуклеотидов (с 42001 по 49001 нуклеотиды).
Он был получен через Putty при помощи программы seqret с опцией
-sask. Требовалось определить, есть ли в этом фрагменте гены, кодирующие белки,
похожие на известные белки бактерии Escherichia coli K-12.
Определение инструментов для решения поставленной задачи
Перед тем, как начинать поиск, необходимо было получить из Swiss-Prot полный
протеом E.coli. Это было сделано при помощи команды seqret sw:*_Ecoli,
которая записала в указанный в параметрах файл (ecoli.fasta)
последовательности всех белков, имеющих ID, заканчивающееся на Ecoli.
Далее необходимо было создать индексные файлы для последующего поиска
программами пакета BLAST: команда
formatdb -i ecoli.fasta -n ecoli -p T
Получение трансляций всех открытых рамок считывания
При помощи программы getorf надо было получить
файл, в котором
содержатся все аминокислотные последовательности, полученные трансляцией
всех открытых рамок считывания длиной не менее 240 нуклеотидов из
интересующей нас
нуклеотидной последовательности.
При этом использование стандартного для бактерий (bacterial)
генетического кода и определение
открытой рамки как последовательности между старт-
и стоп-кодонами обусловило параметры, подаваемые программе getorf:
getorf -table 11 -minsize 240 -find 1 -sequence seq.fasta.
Выходной файл программы содержит 20
аминокислотных последовательностей - ровно столько открытых рамок считывания
нашлось getorf'ом.
Поиск сходных последовательностей у E.coli
Для выполнения поставленной задачи была использована программа blastp
пакета BLAST, т.к. она позволяет искать гомологов белковой
последовательности по банку белковых последовательностей.
Нас интересовали находки с E-value<0,001, что определило значение
входного параметра e программы blastp.
В итоге командой
blastall -p blastp -d ecoli -i getout.orf -o out.txt -e 0.001 -m 9
был получен файл с определением сходных
последовательностей.
Из этого файла хотелось разумным образом получить информацию о числе
сходных последовательностей. Для чего и был написан соответствующий
скрипт, считающий количество строк с некой
последовательностью символов.
Результатом его работы является файл count.txt.
Используя данные из него, а также из файла выдачи программы
getorf можно составить
таблицу, содержащую некоторые полезные данные.
Немного модифицировав ее, получим следующую таблицу,
содержащую данные только по тем открытым рамкам,
для которых нашлась хотя бы одна сходная последовательность:
Рамка Начало Конец Направление Число сходных ID Ecoli E-value
1 146 898 прямое 4 MTGA_ECOLI 6E-86
8 4636 5553 прямое 1 YRAL_ECOLI 3E-110
15 4690 2621 обратное 1 YRAM_ECOLI 0
16 2584 2234 обратное 1 YRAN_ECOLI 2E-32
17 2182 1589 обратное 2 DIAA_ECOLI 3E-104
19 1620 1003 обратное 2 YRAP_ECOLI 6E-60
Схематическое положение на фрагменте тех открытых рамок,
для которых нашлись сходные последовательности в E. coli.
Итак, для шести открытых рамок считывания нашлись сходные последовательности
в E.coli.
Причем 2 открытые рамки располагаются в прямом направлении и 4 в обратном.
Рамки 17 и 19, лежащие в обратном направлении, имеют общие нуклеотиды,
т.е. пересекаются по последовательности. Поэтому схематически
положение открытых рамок на нашем фрагменте из 7000 нуклеотидов можно
изобразить следующим образом:
Гипотетические гены во фрагменте 1-7000 записи AALD01000002
5'-[=>mtgA,146-898]------------------------------------------------------------------------[__=>yraL,4636-5553__]----3'
3'----------------------------[<=diaA,1589-2182]-[<=yraN,2234-2584]-[____<=yraM,2621-4690_____]----------------------5'
3'----------------[<=yraP,1003-1620]---------------------------------------------------------------------------------5'
Сравнение взаимного расположения предполагаемых генов
данного фрагмента и гомологичных им генов в геноме кишечной палочки.
Посмотрим, как расположены гены E.coli, гомологичные нашим, на геноме E.coli:
Ген Начало 5' Конец 3'
mtgA 334,7831 334,7103
yraL 329,1357 329,0497
yraM 329,1422 329,3458
yraN 329,3416 329,3811
diaA 329,3831 329,4421
yraP 329,4431 329,5006
(запятыми отделены порядки для удобного сравнения)
Видно, что в геноме кишечной палочки ген mtgA удален он группы
остальных генов на значительное расстояние, т.е. в данном случае
говорить о консервативности расположения генов не имеет особого смысла.
Поэтому далее будем рассматривать взаимное расположение оставшихся пяти генов.
Гены во фрагменте 3290000 - 3295006 генома E.coli
5'-------------------------------------------------------------------------------------[=>yraL,497-1357]---3'
3'-[<=yraP,4431-5006]-[<=diaA,3831-4421]-[<=yraN,3416-3811]------------------------------------------------5'
3'-----------------------------------------------------[______<=yraM,1422-3458______]----------------------5'
При сравнении расположения пяти гомологичных генов E.coli и Y.mollaretii
нужно отметить, что общий внешний вид их расположения у двух бактерий достаточно
похож: гены не удаляются друг от друга далеко, ген yraL и его гомолог лежат
на одной цепи, остальные гены - на другой, не меняется общий порядок
последовательного расположения генов при перемещении по цепям в одном
направлении.
Что же касается различий, их можно в общем описать как небольшие сдвиги
генов друг относительно друга (до десятков нуклеотидов). Например, в
геноме E.coli гены diaA и yraN отстоят друг от друга на 20 нуклеотидов,
тогда как у бактерии Y.mollaretii - на 52.
Другие пары генов имеют перекрывание в геноме одной бактерии и не имеют -
в другой. Например, yraP и diaA в E.coli отстоят на 10 нуклеотидов, а
в Y.mollaretii перекрываются на 32. И наоборот, гены yraN и yraM
перекрываются на 43 нуклеотида в E.coli и отстоят на 26 нуклеотидов у Y.mollaretii.
Ген yraL, лежащий на другой цепи, перекрывается с yraM в Y.mollaretii
и не перекрывается в E.coli.
Несмотря на такие перемещения, все же мне кажется, что рассматриваемая
группа генов является достаточно консервативной.
|