Занятия 12 и 13. Предсказание генов

 
     

 

Создайте в директории Term3 поддиректорию Practice12 и всю работу проводите в ней. Заведите файл отчета login.doc (название файла — в соответствии с Вашим login'ом), не забудьте написать заголовок отчета.

В директории P:\y05\Term3\GeneRecognition найдите два файла:
    ecoli_<фамилия>.txt — фрагмент последовательности ДНК Escherichia coli в формате EMBL (с аннотацией);
    human_<фамилия>.txt — фрагмент последовательности ДНК человека в формате plain.
Скопируйте эти файлы в свою рабочую директорию.

Часть 1. Поиск прокариотических генов

Вам дан фрагмент последовательности ДНК Escherichia coli и аннотация к нему в формате EMBL (см. файл ecoli_<фамилия>.txt). Вам нужно идентифицировать гены в этом фрагменте при помощи программ ORF Finder и GeneMark и сравнить полученные результаты с аннотацией.

  1. Оформите в виде таблицы все CDS, указанные в аннотации к предложенной Вам последовательности ДНК
  2. Пример таблицы:

    CDS из аннотации ecoli_Watson

    началоконецдлинарамка
    35515691215+1

    Длина CDS должна делиться на 3. Рамку считывания для CDS на прямой цепи можно определить, взяв координату начала CDS по модулю 3: если получится 0, то рамка +3, если 1, то +1, если 2, то +2. Для CDS на обратной цепи рамку можно определить, взяв разность длины последовательности и координаты конца CDS по модулю 3: если получится 0, то рамка –1, если 1, то –2, если 2, то –3. Длина последовательности указана в файле как координата последнего нуклеотида. Например, если длина последовательности 765 и дана CDS на обратной цепи complement(100..345), имеем (765–345) mod 3 = 1, рамка –2. Знак < или > возле границы CDS означает, что CDS продолжается за пределами аннотированной последовательности. На неполных CDS рамку определять не нужно.
     

  3. С помощью программы ORF Finder идентифицируйте открытые рамки считывания в последовательности ДНК
  4. Программа ORF Finder (Open Reading Frame Finder) идентифицирует открытые рамки считывания (ORFs) на обеих цепях ДНК. Доступ к ней можно получить по ссылке http://www.ncbi.nlm.nih.gov/gorf/gorf.html. Cкопируйте последовательность ДНК (о цифрах и пробелах можно не беспокоиться, программа их автоматически пропустит) в текстовое поле формы и нажмите кнопку OrfFind. Вы получите список обнаруженных открытых рамок. Шесть белых полосок в выдаче ORF Finder изображают исходную последовательность в шести возможных рамках считывания, в порядке +1, +2, +3 (прямая цепь), –1, –2, –3 (обратная цепь), а бирюзовые полоски — найденные в данной рамке ORFs. Щёлкните мышью найденную ORF, чтобы получить её более подробное описание. Нажмите кнопку BLAST, чтобы найти последовательности, похожие на транслированную ORF, в банке белковых последовательностей nr и кнопку Format! в открывшемся окне.

    Начало, конец и рамку для самых длинных не пересекающихся по ДНК предсказаний занесите в такую же таблицу, как в п. 1. Выделите зелёным цветом строки таблицы, соответствующие предсказанным ORF, точно совпадающим с аннотированными генами (должны совпадать и начало, и конец, и рамка). Опишите результаты работы blastp: были ли найдены белки; если да — был ли найден белок, в точности совпадающий с транслированной ORF (внимание, бывают хиты со стопроцентным сходством лишь с фрагментом исходной последовательности!); приложите к отчёту выравнивание, соответствующее лучшему хиту blastp.
     

  5. С помощью программы GeneMark распознайте гены в последовательности ДНК
  6. GeneMark — программа статистического предсказания генов. Доступ к ней можно получить по ссылке http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi. Скопируйте последовательность ДНК в поле Sequence Text. Включите опции Print GeneMark 2.4 predictions in addition to GeneMark.hmm predictions и Generate PDF graphics (screen). Запустите программу кнопкой Start GeneMark.hmm. Вы получите таблицы генов, предсказанных двумя программами: GeneMark и GeneMark 2.4. В отчете используйте результаты работы GeneMark 2.4.

    Занесите результаты работы программы GeneMark 2.4 в такую же таблицу, как в п. 1. Знак < или > возле границы предсказанного гена означает, что программа предполагает продолжение гена за пределами данной ей последовательности. Выделите зелёным цветом строки таблицы, соответствующие предсказаниям, точно совпадающим с аннотацией. Желтым цветом выделите строки, соответствующие предсказаниям, пересекающимся с аннотированными генами, но не совпадающими с ними (если предсказанный и аннотированный ген читаются в одной рамке). В таблице из п. 1 выделите красным цветом гены, полностью пропущенные программой.

    Посмотрите, как распределен кодирующий потенциал по ДНК, для этого нажмите гиперссылку View PDF Graphical Output на странице с предсказаниями GeneMark. На открывшемся PDF-рисунке вы увидите графики распределения кодирующего потенциала для каждой рамки считывания на обеих цепях ДНК. Приложите графики к отчёту. Выделите на них изображения кодирующего потенциала для CDS, указанных в аннотации.

Часть 2. Поиск эукариотических генов

Вам дан фрагмент ДНК из генома человека, содержащий альтернативно сплайсируемый ген (human_<фамилия>.txt). Ваша задача — найти две различные изоформы этого гена (неодинаковые выранивания двух белков с ДНК) и некодирующие экзоны, используя программы GENSCAN, BlastX и Human Genome Browser (HGB).

  1. С помощью программы GENSCAN выделите экзоны в последовательности ДНК и определите их тип
  2. GENSCAN — программа статистического распознавания генов, она предсказывает границы экзонов и интронов, промоторы, сайты полиаденилирования. Доступ к программе можно получить по ссылке http://genes.mit.edu/GENSCAN.html. Скопируйте последовательность ДНК в текстовое поле формы и нажмите кнопку Run GENSCAN. Программа GENSCAN представляет результаты в виде таблицы экзонов. Вам будут нужны её колонки Type, Begin и End. Обязательно прочтите расшифровку обозначений в разделе "Explanation" после таблицы. Занесите в свою таблицу начало, конец и тип всех предсказанных программой экзонов (тип экзона: Init — initial (начальный); Intr — internal (внутренний); Term — terminal (конечный)). Пример таблицы:

    Экзоны, предсказанные GenScan для human_Crick

    началоконецтип
    315490начальный
    10091300внутренний

     

  3. Выделите экзоны в последовательности ДНК с помощью программы BlastX и сравните предсказания программ GENSCAN и BlastX
  4. Доступ к web-интерфейсу программы BlastX можно получить сервере NCBI ( http://www.ncbi.nlm.nih.gov/blast/, ищите нужную гиперссылку в разделе Translated).

    В меню "Choose database" оставьте предложенный по умолчанию банк nr. Ниже в опциях найдите меню, позволяющее ограничить поиск только какой-нибудь одной таксономической группой, и выберите в нём позвоночных (Vertebrata). Отключите фильтр малой сложности (low complexity)!

    Программа BlastX предскажет изоформы выданного Вам гена. Найдите изоформы, различающиеся по числу экзонов. Выберите две изоформы с разным числом экзонов. Одна из них должна быть порождена белком, принадлежащим не человеку, это может быть белок любого другого позвоночного.

    BlastX определяет границы экзонов не точно:

    • "Экзоны" Blast могут перекрываться как по ДНК, так и по белку. Вам нужно посмотреть на выравнивания таких "экзонов" и уточнить их границы на ДНК. Для этого посмотрите, какой "экзон" лучше выравнивается в области перекрытия. Считайте, что перекрытие принадлежит "экзону" с наилучшим выравниванием.
    • Вставка в последовательности ДНК (гэп в белке), скорее всего, является интроном. Если вставка ДНК содержит стоп-кодон (отмечается знаком * на выравнивании), это прямое указание на интрон. Такой "экзон" нужно разбить на два "экзона".
    • Blast выводит "экзоны" в случайном порядке. Для успешного выполнения задания вам нужно расположить "экзоны" в порядке возрастания координат по белку. Белковая координата конца предыдущего экзона должна быть на единицу меньше белковой координаты начала следующего экзона (или перекрываться на одну-три аминокислоты).
    В отчете для каждой изоформы приведите выравнивание и отдельную таблицу координат "экзонов" на белке и ДНК:

    Название белка и организм

    координаты по белкукоординаты по ДНК
    начало экзона 1начало экзона 1
    конец экзона 1конец экзона 1
      
    начало экзона 2начало экзона 2
    конец экзона 2конец экзона 2

    Пример таблицы:

    >gi|9621790|gb|AAF89534.1| serine protease [Mus musculus]
    координаты по белкукоординаты по ДНК
    1603
    1691109
      
    1691211
    2371417

    Покрасьте в этих таблицах красным цветом отличия изоформ — альтернативные экзоны. Альтернативными называются экзоны, которые либо отсутствуют в другой изоформе, либо покрывают собой интрон, идентифицированный в другой изоформе, либо имеют альтернативный 5'- или 3'-конец. Внимание: из-за описанной выше неточности программы BlastX отличия концов "экзонов" на 1–10 нуклеотидов не могут быть сочтены настоящей альтернативой.

    Укажите отличия каждой изоформы от предсказания GENSCAN. Для этого продублируйте таблицы BlastX-экзонов. В этих таблицах покрасьте желтым цветом строки, соответствующие "потерянным" BlastX-экзонам (не пересекающимся ни с одним GENSCAN-экзоном). В таблицу с предсказанием GENSCAN добавьте колонку QQ. Перекрытие QQ — мера близости двух систем отрезков, вычисляется как отношение длины пересечения к длине объединения отрезков из этих систем. Покрасьте зеленым цветом GENSCAN-экзоны, хорошо совпадающие с каким-либо BlastX-экзоном (QQ>0,9), укажите QQ для этих экзонов. Покрасьте красным цветом строки, соответствующие "лишним" GENSCAN-экзонам (не пересекающиеся ни с одним из BlastX-экзонов в обеих изоформах).

  5. Найдите Ваш ген в геноме человека, используя программу BLAT в Human Genome Browser. Выделите кодирующие и некодирующие экзоны
  6. База Human Genome Browser (HGB) (http://genome.ucsc.edu/cgi-bin/hgGateway) содержит гены, белки, мРНК, EST и другие объекты, картированные на геном человека (и не только человека). Браузер позволяет просмотреть разнообразную информацию, относящуюся к заданному фрагменту ДНК. Программа BLAT аналогично BLAST позволяет искать последовательности в геноме с учетом возможной фрагментированности генома. Доступ к программе Human BLAT Search можно получить по ссылке "Blat" с основной страницы портала (на синей полосе сверху).

    Поместите последовательность ДНК в текстовое поле формы и нажмите кнопку Submit. Вы получите список найденных фрагментов генома. Если в этом списке больше одной строки, выберите ту строку, которая имеет максимальное сходство с вашей последовательностью по SCORE и максимальную длину выравнивания. Определите, на какой цепи геномной ДНК (прямой или обратной) находится Ваша последовательность (посмотрите знак в колонке STRAND), также определите геномные координаты Вашей последовательности и номер хромосомы, на которой она была найдена. Все эти параметры нужно указать в отчёте. Для пересчета координат от геномных к координатам последовательности определите число OFFSET: если Ваша последовательность находится на прямой цепи, OFFSET=START(по хромосоме, после столбца STRAND)–1; если же она находится на обратной цепи, OFFSET=END(по хромосоме, перед столбцом SPAN)+1. Это число будет использовано чуть позже.

    Перейдите к визуальному просмотру найденного фрагмента генома: нажмите гиперссылку browser. Под картинкой находятся выпадающие меню для выбора отображаемых объектов. Поставьте на pack переключатель Blat Sequence в группе Mapping and Sequencing Tracks, а также переключатели Human mRNAs и Spliced ESTs в группе mRNA and EST Tracks, остальные переключатели поставьте на hide. Нажмите кнопку refresh, она находится в самом низу страницы. Теперь Вы видите, как выравниваются с геномной ДНК Ваша последовательность, а также сплайсированные EST и мРНК из базы. Вставьте картинку в отчет (например, можно нажать на клавиатуре сочетание двух кнопок <Alt+Print Screen> — активное окно в виде картинки будет скопировано в буфер обмена, а затем активизировать окно Word и нажать <Ctrl+V>).

    Если щёлкнуть по изображению мРНК или EST, появляется её подробное описание. На этой страничке в разделе mRNA/Genomic Alignments перейдите по гиперссылке с выравниванием, а потом найдите раскрашенную последовательность, заголовок которой начинается с "Genomic". На ней синим выделены кодирующие участки, красным — некодирующие, чёрным — интроны и участки генома за границей выравнивания. Экзоны могут быть полностью кодирующими, полностью некодирующими, а также смешанными — частично кодирующими и частично некодирующими (это экзоны, содержащие старт- и стоп-кодоны).

    Предъявите какие-либо нетранслируемые экзоны с указанием идентификатора порождающей мРНК в координатах вашей последовательности. Если ваша последовательность находится на прямой цепи ДНК из геномных координат необходимо вычесть OFFSET (<координата в последовательности>= <координата в геноме>–OFFSET), если последовательность на обратной цепи, то из OFFSET необходимо вычитать геномные координаты (<координата в последовательности>=OFFSET–<координата в геноме>). Не пугайтесь, если получите отрицательные значения координат или координаты с 3'-конца будут за пределами последовательности! К отчету приложите файл с выравниванием, подтверждающим найденные вами некодирующие экзоны.

    Предъявите какие-либо внутренние, не предсказанные BlastX, кодирующие экзоны в координатах последовательности с указанием порождающей мРНК или EST (если, конечно, такие экзоны есть). К отчету приложите файл с выравниванием, подтверждающим найденные вами экзоны.

    ОБЯЗАТЕЛЬНО в отчете приведите сохраненную Вами картинку из HGB, выделите на ней найденные экзоны!

    Найденные в Human Genome Browser экзоны оформите в виде таблицы:

    идентификатор мРНК
    начало экзона конец экзона тип экзона
    10 90 кодирующий