Занятия 12 и 13. Предсказание генов

Создайте в директории Term3 поддиректорию Practice12 и всю работу проводите в ней. Заведите файл отчета login.doc (название файла — в соответствии с Вашим login'ом), не забудьте написать заголовок отчета.

В директории P:\y05\Term3\GeneRecognition найдите два файла:
ecoli_<фамилия>.txt — фрагмент последовательности ДНК Escherichia coli в формате EMBL (с аннотацией);
human_<фамилия>.txt — фрагмент последовательности ДНК человека в формате plain.
Скопируйте эти файлы в свою рабочую директорию.

Часть 1. Поиск прокариотических генов

Вам дан фрагмент последовательности ДНК Escherichia coli и аннотация к нему в формате EMBL (см. файл ecoli_<фамилия>.txt). Вам нужно идентифицировать гены в этом фрагменте при помощи программ ORF Finder и GeneMark и сравнить полученные результаты с аннотацией.

Оформите в виде таблицы все CDS, указанные в аннотации к предложенной Вам последовательности ДНК

CDS из аннотации ecoli_Watson

начало конец длина рамка

355 1569 1215 +1

Длина CDS должна делиться на 3. Рамку считывания для CDS на прямой цепи можно определить, взяв координату начала CDS по модулю 3: если получится 0, то рамка +3, если 1, то +1, если 2, то +2. Для CDS на обратной цепи рамку можно определить, взяв разность длины последовательности и координаты конца CDS по модулю 3: если получится 0, то рамка –1, если 1, то –2, если 2, то –3. Длина последовательности указана в файле как координата последнего нуклеотида. Например, если длина последовательности 765 и дана CDS на обратной цепи complement(100..345), имеем (765–345) mod 3 = 1, рамка –2. Знак < или > возле границы CDS означает, что CDS продолжается за пределами аннотированной последовательности. На неполных CDS рамку определять не нужно.

С помощью программы ORF Finder идентифицируйте открытые рамки считывания в последовательности ДНК

ORF Finder

http://www.ncbi.nlm.nih.gov/gorf/gorf.html

OrfFind

ORF Finder

BLAST

Format!

Начало, конец и рамку для самых длинных не пересекающихся по ДНК предсказаний занесите в такую же таблицу, как в п. 1. Выделите зелёным цветом строки таблицы, соответствующие предсказанным ORF, точно совпадающим с аннотированными генами (должны совпадать и начало, и конец, и рамка). Опишите результаты работы blastp: были ли найдены белки; если да — был ли найден белок, в точности совпадающий с транслированной ORF (внимание, бывают хиты со стопроцентным сходством лишь с фрагментом исходной последовательности!); приложите к отчёту выравнивание, соответствующее лучшему хиту blastp.

С помощью программы GeneMark распознайте гены в последовательности ДНК

GeneMark

http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi

Sequence Text

Print GeneMark 2.4 predictions in addition to GeneMark.hmm predictions

Generate PDF graphics (screen)

Start GeneMark.hmm

GeneMark

GeneMark 2.4

Занесите результаты работы программы GeneMark 2.4 в такую же таблицу, как в п. 1. Знак < или > возле границы предсказанного гена означает, что программа предполагает продолжение гена за пределами данной ей последовательности. Выделите зелёным цветом строки таблицы, соответствующие предсказаниям, точно совпадающим с аннотацией. Желтым цветом выделите строки, соответствующие предсказаниям, пересекающимся с аннотированными генами, но не совпадающими с ними (если предсказанный и аннотированный ген читаются в одной рамке). В таблице из п. 1 выделите красным цветом гены, полностью пропущенные программой.

Посмотрите, как распределен кодирующий потенциал по ДНК, для этого нажмите гиперссылку View PDF Graphical Output на странице с предсказаниями GeneMark. На открывшемся PDF-рисунке вы увидите графики распределения кодирующего потенциала для каждой рамки считывания на обеих цепях ДНК. Приложите графики к отчёту. Выделите на них изображения кодирующего потенциала для CDS, указанных в аннотации.

Часть 2. Поиск эукариотических генов

Вам дан фрагмент ДНК из генома человека, содержащий альтернативно сплайсируемый ген (human_<фамилия>.txt). Ваша задача — найти две различные изоформы этого гена (неодинаковые выранивания двух белков с ДНК) и некодирующие экзоны, используя программы GENSCAN, BlastX и Human Genome Browser (HGB).

С помощью программы GENSCAN выделите экзоны в последовательности ДНК и определите их тип

GENSCAN

http://genes.mit.edu/GENSCAN.html

Run GENSCAN

Type

Begin

End

Экзоны, предсказанные GenScan для human_Crick

начало конец тип

315 490 начальный

1009 1300 внутренний

Выделите экзоны в последовательности ДНК с помощью программы BlastX и сравните предсказания программ GENSCAN и BlastX

http://www.ncbi.nlm.nih.gov/blast/

Translated

В меню "Choose database" оставьте предложенный по умолчанию банк nr. Ниже в опциях найдите меню, позволяющее ограничить поиск только какой-нибудь одной таксономической группой, и выберите в нём позвоночных (Vertebrata). Отключите фильтр малой сложности (low complexity)!

Программа BlastX предскажет изоформы выданного Вам гена. Найдите изоформы, различающиеся по числу экзонов. Выберите две изоформы с разным числом экзонов. Одна из них должна быть порождена белком, принадлежащим не человеку, это может быть белок любого другого позвоночного.

BlastX определяет границы экзонов не точно:

"Экзоны" Blast могут перекрываться как по ДНК, так и по белку. Вам нужно посмотреть на выравнивания таких "экзонов" и уточнить их границы на ДНК. Для этого посмотрите, какой "экзон" лучше выравнивается в области перекрытия. Считайте, что перекрытие принадлежит "экзону" с наилучшим выравниванием.
Вставка в последовательности ДНК (гэп в белке), скорее всего, является интроном. Если вставка ДНК содержит стоп-кодон (отмечается знаком * на выравнивании), это прямое указание на интрон. Такой "экзон" нужно разбить на два "экзона".
Blast выводит "экзоны" в случайном порядке. Для успешного выполнения задания вам нужно расположить "экзоны" в порядке возрастания координат по белку. Белковая координата конца предыдущего экзона должна быть на единицу меньше белковой координаты начала следующего экзона (или перекрываться на одну-три аминокислоты).

Название белка и организм

координаты по белку координаты по ДНК

начало экзона 1 начало экзона 1

конец экзона 1 конец экзона 1

начало экзона 2 начало экзона 2

конец экзона 2 конец экзона 2

Пример таблицы:

>gi|9621790|gb|AAF89534.1| serine protease [Mus musculus]

координаты по белку координаты по ДНК

1 603

169 1109

169 1211

237 1417

Покрасьте в этих таблицах красным цветом отличия изоформ — альтернативные экзоны. Альтернативными называются экзоны, которые либо отсутствуют в другой изоформе, либо покрывают собой интрон, идентифицированный в другой изоформе, либо имеют альтернативный 5'- или 3'-конец. Внимание: из-за описанной выше неточности программы BlastX отличия концов "экзонов" на 1–10 нуклеотидов не могут быть сочтены настоящей альтернативой.

Укажите отличия каждой изоформы от предсказания GENSCAN. Для этого продублируйте таблицы BlastX-экзонов. В этих таблицах покрасьте желтым цветом строки, соответствующие "потерянным" BlastX-экзонам (не пересекающимся ни с одним GENSCAN-экзоном). В таблицу с предсказанием GENSCAN добавьте колонку QQ. Перекрытие QQ — мера близости двух систем отрезков, вычисляется как отношение длины пересечения к длине объединения отрезков из этих систем. Покрасьте зеленым цветом GENSCAN-экзоны, хорошо совпадающие с каким-либо BlastX-экзоном (QQ>0,9), укажите QQ для этих экзонов. Покрасьте красным цветом строки, соответствующие "лишним" GENSCAN-экзонам (не пересекающиеся ни с одним из BlastX-экзонов в обеих изоформах).

Найдите Ваш ген в геноме человека, используя программу BLAT в Human Genome Browser. Выделите кодирующие и некодирующие экзоны

База Human Genome Browser (HGB) (http://genome.ucsc.edu/cgi-bin/hgGateway) содержит гены, белки, мРНК, EST и другие объекты, картированные на геном человека (и не только человека). Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST позволяет искать последовательности в геноме с учетом возможной фрагментированности генома. Доступ к программе Human BLAT Search можно получить по ссылке "Blat" с основной страницы портала (на синей полосе сверху).

Поместите последовательность ДНК в текстовое поле формы и нажмите кнопку Submit. Вы получите список найденных фрагментов генома. Если в этом списке больше одной строки, выберите ту строку, которая имеет максимальное сходство с вашей последовательностью по SCORE и максимальную длину выравнивания. Определите, на какой цепи геномной ДНК (прямой или обратной) находится Ваша последовательность (посмотрите знак в колонке STRAND), также определите геномные координаты Вашей последовательности и номер хромосомы, на которой она была найдена. Все эти параметры нужно указать в отчёте. Для пересчета координат от геномных к координатам последовательности определите число OFFSET: если Ваша последовательность находится на прямой цепи, OFFSET=START(по хромосоме, после столбца STRAND)–1; если же она находится на обратной цепи, OFFSET=END(по хромосоме, перед столбцом SPAN)+1. Это число будет использовано чуть позже.

Перейдите к визуальному просмотру найденного фрагмента генома: нажмите гиперссылку browser. Под картинкой находятся выпадающие меню для выбора отображаемых объектов. Поставьте на pack переключатель Blat Sequence в группе Mapping and Sequencing Tracks, а также переключатели Human mRNAs и Spliced ESTs в группе mRNA and EST Tracks, остальные переключатели поставьте на hide. Нажмите кнопку refresh, она находится в самом низу страницы. Теперь Вы видите, как выравниваются с геномной ДНК Ваша последовательность, а также сплайсированные EST и мРНК из базы. Вставьте картинку в отчет (например, можно нажать на клавиатуре сочетание двух кнопок <Alt+Print Screen> — активное окно в виде картинки будет скопировано в буфер обмена, а затем активизировать окно Word и нажать <Ctrl+V>).

Если щёлкнуть по изображению мРНК или EST, появляется её подробное описание. На этой страничке в разделе mRNA/Genomic Alignments перейдите по гиперссылке с выравниванием, а потом найдите раскрашенную последовательность, заголовок которой начинается с "Genomic". На ней синим выделены кодирующие участки, красным — некодирующие, чёрным — интроны и участки генома за границей выравнивания. Экзоны могут быть полностью кодирующими, полностью некодирующими, а также смешанными — частично кодирующими и частично некодирующими (это экзоны, содержащие старт- и стоп-кодоны).

Предъявите какие-либо нетранслируемые экзоны с указанием идентификатора порождающей мРНК в координатах вашей последовательности. Если ваша последовательность находится на прямой цепи ДНК из геномных координат необходимо вычесть OFFSET (<координата в последовательности>= <координата в геноме>–OFFSET), если последовательность на обратной цепи, то из OFFSET необходимо вычитать геномные координаты (<координата в последовательности>=OFFSET–<координата в геноме>). Не пугайтесь, если получите отрицательные значения координат или координаты с 3'-конца будут за пределами последовательности! К отчету приложите файл с выравниванием, подтверждающим найденные вами некодирующие экзоны.

Предъявите какие-либо внутренние, не предсказанные BlastX, кодирующие экзоны в координатах последовательности с указанием порождающей мРНК или EST (если, конечно, такие экзоны есть). К отчету приложите файл с выравниванием, подтверждающим найденные вами экзоны.

ОБЯЗАТЕЛЬНО в отчете приведите сохраненную Вами картинку из HGB, выделите на ней найденные экзоны!

Найденные в Human Genome Browser экзоны оформите в виде таблицы:

идентификатор мРНК

начало экзона конец экзона тип экзона

10 90 кодирующий

Занятия 12 и 13. Предсказание генов

Часть 1. Поиск прокариотических генов

Оформите в виде таблицы все CDS, указанные в аннотации к предложенной Вам последовательности ДНК

CDS из аннотации ecoli_Watson

С помощью программы ORF Finder идентифицируйте открытые рамки считывания в последовательности ДНК

С помощью программы GeneMark распознайте гены в последовательности ДНК

Часть 2. Поиск эукариотических генов

С помощью программы GENSCAN выделите экзоны в последовательности ДНК и определите их тип

Экзоны, предсказанные GenScan для human_Crick

Выделите экзоны в последовательности ДНК с помощью программы BlastX и сравните предсказания программ GENSCAN и BlastX

Название белка и организм

Найдите Ваш ген в геноме человека, используя программу BLAT в Human Genome Browser. Выделите кодирующие и некодирующие экзоны

Экзоны, предсказанные GenScan для `human_Crick`