Зачетное задание по BLAST

Необходимо рассмотреть неаннотированный фрагмент генома Regiella insecticola длиной 7000 нуклеотидов и определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.
Для выполнения задания был взят фрагмент генома из записи EMBL AC201621, позиции 35001 - 42000. Фрагмент был получен командой
seqret "embl:AC201621[35001:42000]"
и сохранен в файле fragment.fasta. Далее из этого фрагмента при помощи getorf был получен набор открытых рамок считывания длиной не менее 240 нуклеотидов, причем рамкой считывания считалась последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном, и использовался бактериальный генетический код. Набор открытых рамок находится в файле fragment.orf и был получен командой
getorf -minsize 240 -table 11 -find 1 
Кроме того, был получен полный протеом E.coli из Swissprot, для этого вводилась команда
seqret sw:*_ECOLI
и были созданы индексные файлы BLAST.
Далее по протеому E.coli производился поиск полученных ранее открытых рамок считывания при помощи программы blastp (поиск белковых последовательностей в банке белков). Допустимые значения E-value < 0.001:
blastall -p blastp -d ecoli -i fragment.orf -m 8 -o results.txt -e 0.001
Результаты поиска находятся в файле results.txt.
Затем при помощи программы grep (скрипт script.scr) для каждой рамки получено число найденных BLAST сходных последовательностей.
Информация обо всех открытых рамках считывания в исследуемом фрагменте генома находится в файле Excel ORFs.xlc.
Ниже приведены данные о рамках считывания, для которых нашлась хотя бы одна сходная последовательность в геноме E.coli.

Название рамки Начало Конец Направление Число находок BLASTP Идентификатор лучшей находкиE. coli E-value лучшей находки
AC201621_5 6925 5948 обратное 1 RS2_ECOLI 3e-119
AC201621_6 5903 4986 обратное 1 EFTS_ECOLI 3e-110
AC201621_7 4739 3903 обратное 1 PYRH_ECOLI 5e-112
AC201621_8 3769 3191 обратное 1 RRF_ECOLI 3e-67
AC201621_10 3164 1956 обратное 1 DXR_ECOLI 3e-145
AC201621_11 1927 1157 обратное 1 UPPS_ECOLI 1e-85
AC201621_12 1160 297 обратное 2 CDSA_ECOLI 8e-102
AC201621_13 290 3 обратное 1 RSEP_ECOLI 5e-42

Таким образом, сходные последовательности найдены для 8 открытых рамок считывания, причем все эти рамки лежат на комплементарной цепи (имеют обратное направление). Для прямых рамок, присутствующих во фрагменте, сходных последовательностей в протеоме E.coli не нашлось. Перекрывания рамок нет.
Ниже представлено графическое описание взаимного расположения предполагаемых генов в исследуемом фрагменте.

Гипотетические гены во фрагменте 35001-42000 записи AC201621
3'----[<= RSEP, 3-290]----[<= CDSA, 297-1160]----[<= UPPS, 1157-1927]----[<= DXR, 1956-3164]----[<= RRF, 3191-3769]----5'
5'---------------------------------------------------------------------------------------------------------------------3'

3'----[<= PYRH, 3903-4739]----[<= EFTS, 4986-5903]----[<= RS2, 5948-6925]----5'
5'---------------------------------------------------------------------------3'

Далее было определено расположение сходных аннотированных генов в геноме Е.coli, для этого получен файл EMBL с этим геномом. Координаты этих генов следующие:

Название белка E.coli Соответствующий ему ген Координаты гена
RS2_ECOLI rpsB 189874..190599
EFTS_ECOLI tsf 190857..191708
PYRH_ECOLI pyrH 191855..192580
RRF_ECOLI frr 192872..193429
DXR_ECOLI dxr 193521..194717
UPPS_ECOLI ispU 194903..195664
CDSA_ECOLI cdsA 195677..196534
RSEP_ECOLI rseP 196546..197898

Направление всех генов прямое, перекрываний нет.


Рассмотрим расположение этих генов в геноме E.coli относительно друг друга. Для наглядности указаны не названия генов, а краткие названия белков:
3'------------------------------------------------------------------------------------------------------------------5'
5'----[=> RS2, 189874-190599]----[=> EFTS, 190857-191708]----[=> PYRH, 191855-192580]----[=> RRF, 192872-193429]----3'

3'------------------------------------------------------------------------------------------------------------------5'
5'----[=> DXR, 193521-194717]----[=> UPPS, 194903-195664]----[=> CDSA, 195677-196534]----[=> RSEP, 196546-197898]---3'

Очевидно, что рассматриваемый фрагмент довольно консервативен: все гены расположены на одной цепи, идут сразу друг за другом (разделяются совсем небольшими некодирующими участками) и в одинаковом порядке в обоих случаях (как у R.insecticola, так и у E.coli).

Назад