| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  |   |
Зачетное задание по BLASTНеобходимо рассмотреть неаннотированный фрагмент генома Regiella insecticola длиной 7000 нуклеотидов и определить, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Escherichia coli штамма K12.Для выполнения задания был взят фрагмент генома из записи EMBL AC201621, позиции 35001 - 42000. Фрагмент был получен командой seqret "embl:AC201621[35001:42000]"и сохранен в файле fragment.fasta. Далее из этого фрагмента при помощи getorf был получен набор открытых рамок считывания длиной не менее 240 нуклеотидов, причем рамкой считывания считалась последовательность, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном, и использовался бактериальный генетический код. Набор открытых рамок находится в файле fragment.orf и был получен командой getorf -minsize 240 -table 11 -find 1Кроме того, был получен полный протеом E.coli из Swissprot, для этого вводилась команда seqret sw:*_ECOLIи были созданы индексные файлы BLAST. Далее по протеому E.coli производился поиск полученных ранее открытых рамок считывания при помощи программы blastp (поиск белковых последовательностей в банке белков). Допустимые значения E-value < 0.001: blastall -p blastp -d ecoli -i fragment.orf -m 8 -o results.txt -e 0.001Результаты поиска находятся в файле results.txt. Затем при помощи программы grep (скрипт script.scr) для каждой рамки получено число найденных BLAST сходных последовательностей. Информация обо всех открытых рамках считывания в исследуемом фрагменте генома находится в файле Excel ORFs.xlc. Ниже приведены данные о рамках считывания, для которых нашлась хотя бы одна сходная последовательность в геноме E.coli.
Таким образом, сходные последовательности найдены для 8 открытых рамок считывания, причем все эти рамки лежат на комплементарной цепи (имеют обратное направление). Для прямых рамок, присутствующих во фрагменте, сходных последовательностей в протеоме E.coli не нашлось. Перекрывания рамок нет. Ниже представлено графическое описание взаимного расположения предполагаемых генов в исследуемом фрагменте. Гипотетические гены во фрагменте 35001-42000 записи AC201621 3'----[<= RSEP, 3-290]----[<= CDSA, 297-1160]----[<= UPPS, 1157-1927]----[<= DXR, 1956-3164]----[<= RRF, 3191-3769]----5' Далее было определено расположение сходных аннотированных генов в геноме Е.coli, для этого получен файл EMBL с этим геномом. Координаты этих генов следующие:
Направление всех генов прямое, перекрываний нет. Рассмотрим расположение этих генов в геноме E.coli относительно друг друга. Для наглядности указаны не названия генов, а краткие названия белков: 3'------------------------------------------------------------------------------------------------------------------5' Очевидно, что рассматриваемый фрагмент довольно консервативен: все гены расположены на одной цепи, идут сразу друг за другом (разделяются совсем небольшими некодирующими участками) и в одинаковом порядке в обоих случаях (как у R.insecticola, так и у E.coli). Назад |