Четвёртый семестр

Предсказание генов

ФББ МГУ, 2 курс, весна 2006

ecoli02.txt – фрагмент последовательности ДНК Escherichia coli в формате EMBL (с аннотацией);
human02.txt – фрагмент последовательности ДНК человека в формате FASTA.

Часть 1. Поиск прокариотических генов

Мне дан фрагмент последовательности ДНК Escherichia coli и аннотация к нему в формате EMBL (см. файл ecoli02.txt). Надо идентифицировать гены в этом фрагменте при помощи программ ORF Finder и GeneMark и сравнить полученные результаты с аннотацией.

1.1 CDS, указанные в аннотации к последовательности ДНК

CDS из аннотации ecoli02
началоконецдлинарамка
<1*250  
247969723+1

     * CDS продолжается за пределами аннотированной последовательности

1.2 Идентификация открытых рамок считывания в последовательности ДНК с помощью программы ORF Finder

Программа ORF Finder (Open Reading Frame Finder) идентифицирует открытые рамки (ORFs) на обеих цепях ДНК. Доступ к ней можно получить по ссылке

Обнаруженные открытые рамки:
Схема ORF'ов

Самые длинные не пересекающиеся предсказанные рамки приведены в таблице; рамки, совпадающие с аннотированными CDS, выделены зелёным (как видно, они обе совпадают с аннотацией):

началоконецдлинарамка
247969723+1
*2250249*+2

С помощью BLAST был проведён поиск белков, похожих на транслированную ORF, в GenBank. Нашлись гомологи только для трёх открытых рамок, причём для двух рамок, совпадающих с аннотированными, есть гомологи со 100% сходством. Вот их выравнивания:  > на отдельной страничке

  > на отдельной страничке

1.3 Распознавание генов в последовательности ДНК с помощью программы GeneMark

GeneMark – программа статистического предсказания генов. Доступ к ней можно получить по ссылке

Результаты работы программы GeneMark 2.4:

ГенЦепьЛевый КонецПравый КонецДлина генаКласс
1+<22502491
2+2479697231

Графики распределения кодирующего потенциала для каждой рамки считывания:  > на отдельной страничке

Часть 2. Поиск эукариотических генов

Дан фрагмент ДНК человека, содержащий альтернативно сплайсируемый ген (файл human2.txt). Задача – найти две различные изоформы этого гена и некодирующие экзоны используя программы GENSCAN, BlastX и Human Genome Browser (HGB)

2.1 Поиск экзонов в последовательности ДНК и определение их типа с помощью программы GENSCAN

GENSCAN – программа статистического распознавания генов, она предсказывает границы экзонов и интронов, промоторы, сайты полиаденилирования. Доступ к программе можно получить по ссылке

Таблица выдачи Genscan:

НачалоКонецДлинаТипЦепь Рамка
613 1118506начальный экзон +0
12231427205внутренний экзон+2
15171711195внутренний экзон+1
1945197733 внутренний экзон+0
21732308136внутренний экзон+0
2462253170 внутренний экзон+0
3225332096 внутренний экзон+0
34263591166конечный экзон +0
376237676 сайт полиаденирования  

2.2 Выделение экзонов в последовательности ДНК с помощью программы BlastX

Программа BlastX производит поиск формального транслята входной последовательности в базе данных известных белков. Доступ к программе можно получить по ссылке

Поиск проводился без фильтра фрагментов малой сложности и только среди белков позвоночных. Результат поиска:  > на отдельной страничке

Выравнивания двух изоформ с разным числом экзонов:

Человек:   доменная структура сериновой протеазы человека  > на отдельной страничке

Рыба-зебра:   доменная структура сериновой протеазы рыбы-зебры  > на отдельной страничке

Сравнение двух изоформ с разным числом экзонов.
Альтернативные экзоны выделены цветом: оранжевым – имеющие сильно различающиеся границы, красным – отсутствующие в другой изоформе:

Человек
Сериновая протеаза Htra2
Рыба-зебра
Предположительно сериновая протеаза 11
рамкакоординаты по ДНКкоординаты по белкурамкакоординаты по ДНКкоординаты по белку
+1613-11191-169+11030-1110161-187
+31221-1427169-237+31206-1418185-255
+21517-1711237-302+21505-1711255-323
+12203-2307314-348+12203-2289335-363
+32464-2529349-371   
+13223-3588372-458   

Сравнение найденных BlastX экзонов с предсказанием GENSCAN. Красным выделены строки, соответствующие лишним GENSCAN-экзонам, не пересекающимся ни с одним BlastX-экзоном. BlastX-экзонов, не пересекающихся с GENSCAN-экзонами, не найдено. Перекрытие QQ - мера близости GENSCAN и BlastX-экзонов, вычисляется как отношение длины пересечения к длине объединения отрезков; GENSCAN-экзоны, хорошо совпадающие с каким-либо BlastX-экзоном (QQ>0.9), выделены зелёным цветом:

Экзоны по GENSCANBlastX ЧеловекBlastX Рыба-зебраQQ
Координаты по ДНКРамкаКоординаты по ДНКРамкаКоординаты по ДНКРамка
613-11180613-1119+11030-1110+11
1223-142721221-1427+31206-1418+30,99
1517-171111517-1711+21505-1711+21
1945-19770    0
2173-230802203-2307+12203-2289+10,77
2462-253102464-2529+3  0,94
3225-332003223-3588+1  0,26
3426-35910    0

2.3 Поиск гена в геноме человека с использованием Human Genome Browser

База Human Genome Browser (HGB) содержит гены, белки, мРНК, EST и другие объекты, картированные на геном человека (и не только). Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST позволяет искать последовательности в геноме с учетом возможной фрагментированности генома.

В программе Human BLAT Search был проведён поиск похожих фрагментов генома для последовательности человеческой ДНК.

Результаты для лучшего (совпадающего на 100%) из семи найденных фрагментов:

Цепь ДНКГеномные координатыХромосомаКоординаты по последовательностиOffset
Прямая (+)74668187 - 74672461211 - 428574668176

Изображение выравнивания последовательности с геномной ДНК и сплайсированными EST и мРНК из базы:  > на отдельной страничке

Информация о mRNA AF141305:

Участки нетранслируемых экзонов:
11 - 612
3592 - 3784
Внутренний не предсказанный BlastX кодирующий экзон:
1945 - 1977

Выравнивание:  > на отдельной страничке

Все найденные в Human Genome Browser экзоны:

МРНК AF141305
начало экзонаконец экзонатип экзона
111118частично кодирующий
12231427кодирующий
15171711кодирующий
19451977кодирующий
22032308кодирующий
24622531кодирующий
32253320кодирующий
34263784частично кодирующий

Нетранслируемые участки экзонов выделены красным, транслируемые – синим:  > на отдельной страничке