1. Получить интересующий участок генома можно при помощи команды seqret с опцией -sask
seqret -sask
Input (gapped) sequence(s): aald01000001.embl (затем удален из директории)
Begin at position [start]: 105001
End at position [end]: 112000
Reverse strand [N]: n
output sequence(s) [aald01000001.fasta]: ye.fasta
2. Полный протеом Escherichia coli K-12 можно получить при помощи команды :
sw:*_ecoli >ecoli.fasta
3.Для того что бы определить ,закодированы ли на данном участки белки, похожие на известный необходимо
а) Получить трансляцию всех открытых рамок считывания существуешь на в данном фрагменте :
getorf ye.fasta ye_orf.fasta -find 1 -table 11 minsize 240
В итоге в выходном файле содержаться ORF длинной не менее 240 нк,располагающиеся между старт и стоп кодоном,транслированные согласно бактериальному коду. Таких рамок нашлось 13.
b)Далее определяем есть ли белки с такими рамками в протеоме Escherichia coli K-12 .
Для этого ,во-первых,создаем индексные файлы для поиска по протеому.
formatdb -i ecoli.fasta -p t -n ec
Во-вторых, запускаем программу бласт:
blastall -p blastp -d ec -i ye_orf.fasta -o blast.txt -e 0.001 -m 9
Запускаем с опцией "-p blastp" ,т.к мы ищем белковые последовательности по банку с протеомом (т.е. содержащему также белковые последовательности) .
В выходном файле содержиться информация о белках Е.сoli , имеющих такую же рамку считывания как
и данный нам фрагмент.
4.Для удобства подсчета найденных гомологов используем скрипт.
5. Исходя из полученных выше данных можно составить таблицу предполагаемых генов (т.е., открытых рамок, для которых нашелся сходный участок генома/протеома E. coli)
номер рамки | Начало рамки | Конец рамки | Направление | Кол-во гомологов | Идентификатор ближайщего гомолога | e-value |
1 | 5 | 877 | => | 2 | TEHB_ECOLI | 4e-67 |
2 | 1042 | 2283 | => | 3 | YPDF_ECOLI | 6e-16 |
3 | 2908 | 5436 | => | 1 | PGAA_ECOLI | 2e-173 |
4 | 5443 | 6999 | => | 2 | PGAB_ECOLI | 2e-152 |
------[=>ген tehb,]------------------------------------------[=>ген ypdf,]--------------------[=>ген pgaa,]---------[=>ген pgab,]- 5-877 1042-2283 2908-5436 5443-6999Таким образом очевидно, что такой метод предсказания не позволяет определить точных границ генов, а лишь какие участки входят в кодирующую область генома. В частности таким образом не предсказываются начала генов.Все реальные гены начинаются на самом деле позже,относительно предсказанной координаты. Это происходит по тому что мы рассматриваем самую длинную открытую рамку , т.е от первого метеонина (те же нуклеотиды кодируют старт-кодон).Постольку в последовательности к среднем каждый двадцатый нуклеотид - метионин, то для определения с какого именно начитается белок необходимо использовать дополнительные данные и методы предсказания.Реальные гены Yersinia mollaretii (участок соответствующий фрагменту 105001-112000)
Ниже в скобках указаны координаты переведенные относительно начальных данных. ------[=>ген YmolA_01000091,]------------------------------[=>ген YmolA_01000092,]-----[=>ген YmolA_01000093,]---[=>ген YmolA_01000094,]- 105011-105880 106054-107286 108067-110439 110494-112476 (11-880) (1054-2286) (3067-5439) (5494-7476)
----[<======ген pgaB,]---[<==== ген pgaA,]--------------------------[<======ген tehB,]---------------------------------------[<=======ген ypdF,] 1087062-1089080 1089089-1091512 1499586-1500179 2503569-2504654
Найденные четыре гена в обоих геномах лежат на одной цепи. Но только 2 из них находятся на очень близком расстоянии в обоих случаях.Это гены pgaA и pgaB. Тогда логично предположить , что это не простая случайность,а биологическая необходимость.
И действительно гены pgaA и pgaB функционально связаны. (необходимы для "строительства" мембраны ) поэтому неудивительно, что и у E.coli и у Yersinia mollaretii эти гены позиционно связаны. Два других гена выполняют совершенно различные функции и поэтому никакой корреляции между их расположение в разных бактериальных геномах нет.
Таким образом если при помощи данного метода удалось установить что какая-либо группа генов позиционно связана на определенном эволюционном растоянии , то скорее всего эти гены имеют и фукнциональную связь.
Главная страница Третий семестр
©Петрова Светлана,2008