Зачетное задание.

Дано

: неаннотированный фрагмент генома бактерии Yersinia mollaretii (105001-112000)

Задача

: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные
белки родственной бактерии (кишечной палочки). Решение:

1. Получить интересующий участок генома можно при помощи команды seqret с опцией -sask

seqret -sask
Input (gapped) sequence(s): aald01000001.embl (затем удален из директории)
Begin at position [start]: 105001
End at position [end]: 112000
Reverse strand [N]: n
output sequence(s) [aald01000001.fasta]: ye.fasta

2. Полный протеом Escherichia coli K-12 можно получить при помощи команды :
sw:*_ecoli >ecoli.fasta

3.Для того что бы определить ,закодированы ли на данном участки белки, похожие на известный необходимо

а) Получить трансляцию всех открытых рамок считывания существуешь на в данном фрагменте :
getorf ye.fasta ye_orf.fasta -find 1 -table 11 minsize 240

В итоге в выходном файле содержаться ORF длинной не менее 240 нк,располагающиеся между старт и стоп кодоном,транслированные согласно бактериальному коду. Таких рамок нашлось 13.

b)Далее определяем есть ли белки с такими рамками в протеоме Escherichia coli K-12 .
Для этого ,во-первых,создаем индексные файлы для поиска по протеому.
formatdb -i ecoli.fasta -p t -n ec
Во-вторых, запускаем программу бласт:
blastall -p blastp -d ec -i ye_orf.fasta -o blast.txt -e 0.001 -m 9

Запускаем с опцией "-p blastp" ,т.к мы ищем белковые последовательности по банку с протеомом (т.е. содержащему также белковые последовательности) .
В выходном файле содержиться информация о белках Е.сoli , имеющих такую же рамку считывания как и данный нам фрагмент.

4.Для удобства подсчета найденных гомологов используем скрипт.

5. Исходя из полученных выше данных можно составить таблицу предполагаемых генов (т.е., открытых рамок, для которых нашелся сходный участок генома/протеома E. coli)

номер рамки Начало рамки Конец рамки Направление Кол-во гомологов Идентификатор ближайщего гомолога e-value
1 5 877 => 2 TEHB_ECOLI 4e-67
2 1042 2283 => 3 YPDF_ECOLI 6e-16
3 2908 5436 => 1 PGAA_ECOLI 2e-173
4 5443 6999 => 2 PGAB_ECOLI 2e-152

5.Cхематичное расположение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.

Гипотетические гены во фрагменте 105001-112000 записи AALD01000001

(Название генов даны по гомологичным в E. coli.)

------[=>ген tehb,]------------------------------------------[=>ген ypdf,]--------------------[=>ген pgaa,]---------[=>ген pgab,]-
          5-877                                                1042-2283                        2908-5436              5443-6999

Реальные гены Yersinia mollaretii (участок соответствующий фрагменту 105001-112000)

Ниже в скобках указаны координаты переведенные относительно начальных данных. ------[=>ген YmolA_01000091,]------------------------------[=>ген YmolA_01000092,]-----[=>ген YmolA_01000093,]---[=>ген YmolA_01000094,]- 105011-105880 106054-107286 108067-110439 110494-112476 (11-880) (1054-2286) (3067-5439) (5494-7476)

Таким образом очевидно, что такой метод предсказания не позволяет определить точных границ генов, а лишь какие участки входят в кодирующую область генома. В частности таким образом не предсказываются начала генов.Все реальные гены начинаются на самом деле позже,относительно предсказанной координаты. Это происходит по тому что мы рассматриваем самую длинную открытую рамку , т.е от первого метеонина (те же нуклеотиды кодируют старт-кодон).Постольку в последовательности к среднем каждый двадцатый нуклеотид - метионин, то для определения с какого именно начитается белок необходимо использовать дополнительные данные и методы предсказания.
Конец гена определяется более точно.В трех из четырех предсказанных генах он отличается на 3 н.к , которые являются стоп-кодоном.

6.Cхематичное расположениесходных аннотированных генов в геноме E. coli.

----[<======ген pgaB,]---[<==== ген pgaA,]--------------------------[<======ген tehB,]---------------------------------------[<=======ген ypdF,] 1087062-1089080 1089089-1091512 1499586-1500179 2503569-2504654

Найденные четыре гена в обоих геномах лежат на одной цепи. Но только 2 из них находятся на очень близком расстоянии в обоих случаях.Это гены pgaA и pgaB. Тогда логично предположить , что это не простая случайность,а биологическая необходимость.

И действительно гены pgaA и pgaB функционально связаны. (необходимы для "строительства" мембраны ) поэтому неудивительно, что и у E.coli и у Yersinia mollaretii эти гены позиционно связаны. Два других гена выполняют совершенно различные функции и поэтому никакой корреляции между их расположение в разных бактериальных геномах нет.

Таким образом если при помощи данного метода удалось установить что какая-либо группа генов позиционно связана на определенном эволюционном растоянии , то скорее всего эти гены имеют и фукнциональную связь.

Главная страница Третий семестр


©Петрова Светлана,2008