|
|
|
Создайте в директории Term3 поддиректорию Practice12 и всю работу проводите в ней.
Заведите файл отчета login.doc (название файла — в соответствии с Вашим
login'ом), не забудьте написать заголовок отчета.
В директории P:\y05\Term3\GeneRecognition найдите два файла:
ecoli_<фамилия>.txt — фрагмент
последовательности ДНК Escherichia coli в формате EMBL (с аннотацией);
human_<фамилия>.txt — фрагмент
последовательности ДНК человека в формате plain.
Скопируйте эти файлы в свою рабочую директорию.
Часть 1. Поиск прокариотических генов
Вам дан фрагмент последовательности ДНК Escherichia coli и аннотация к нему
в формате EMBL (см. файл ecoli_<фамилия>.txt).
Вам нужно идентифицировать гены в этом фрагменте при помощи программ
ORF Finder и GeneMark и сравнить полученные результаты с аннотацией.
- Оформите в виде таблицы все CDS, указанные в аннотации к
предложенной Вам последовательности ДНК
Пример таблицы:
CDS из аннотации ecoli_Watson |
начало | конец | длина | рамка |
355 | 1569 | 1215 | +1 |
Длина CDS должна делиться на 3. Рамку считывания для CDS на прямой цепи можно
определить, взяв координату начала CDS по модулю 3: если получится 0, то рамка +3,
если 1, то +1, если 2, то +2. Для CDS на обратной цепи рамку можно определить, взяв
разность длины последовательности и координаты конца CDS по модулю 3: если
получится 0, то рамка –1, если 1, то –2, если 2, то –3. Длина последовательности указана
в файле как координата последнего нуклеотида. Например, если длина
последовательности 765 и дана CDS на обратной цепи complement(100..345), имеем
(765–345) mod 3 = 1, рамка –2. Знак < или > возле границы CDS означает, что CDS
продолжается за пределами аннотированной последовательности. На неполных CDS
рамку определять не нужно.
- С помощью программы ORF Finder идентифицируйте открытые рамки
считывания в последовательности ДНК
Программа ORF Finder (Open Reading Frame Finder)
идентифицирует открытые рамки считывания
(ORFs) на обеих цепях ДНК. Доступ к ней можно получить по ссылке
http://www.ncbi.nlm.nih.gov/gorf/gorf.html.
Cкопируйте последовательность ДНК (о
цифрах и пробелах можно не беспокоиться, программа их автоматически пропустит)
в текстовое поле формы и нажмите кнопку OrfFind.
Вы получите список обнаруженных
открытых рамок. Шесть белых полосок в выдаче ORF Finder изображают исходную
последовательность в шести возможных рамках считывания, в порядке +1, +2, +3
(прямая цепь), –1, –2, –3 (обратная цепь), а бирюзовые полоски — найденные
в данной рамке
ORFs. Щёлкните мышью найденную ORF, чтобы получить её более подробное описание.
Нажмите кнопку BLAST, чтобы найти последовательности,
похожие на транслированную ORF, в
банке белковых последовательностей nr
и кнопку Format! в открывшемся окне.
Начало, конец и рамку для самых длинных не пересекающихся по ДНК предсказаний
занесите в такую же таблицу, как в п. 1.
Выделите зелёным цветом строки таблицы,
соответствующие предсказанным ORF, точно совпадающим с аннотированными генами
(должны совпадать и начало, и конец, и рамка).
Опишите результаты работы blastp: были
ли найдены белки; если да — был ли найден белок, в точности совпадающий с
транслированной ORF (внимание, бывают хиты со стопроцентным сходством лишь с
фрагментом исходной последовательности!); приложите к отчёту выравнивание,
соответствующее лучшему хиту blastp.
- С помощью программы GeneMark распознайте гены в последовательности ДНК
GeneMark — программа статистического предсказания генов. Доступ к ней
можно получить по ссылке
http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi. Скопируйте
последовательность ДНК в поле Sequence Text. Включите опции Print
GeneMark 2.4 predictions in addition to GeneMark.hmm predictions и
Generate PDF graphics (screen). Запустите программу кнопкой Start
GeneMark.hmm. Вы получите таблицы генов, предсказанных двумя
программами: GeneMark и GeneMark 2.4. В отчете используйте результаты
работы GeneMark 2.4.
Занесите результаты работы программы GeneMark 2.4
в такую же таблицу, как
в п. 1. Знак < или >
возле границы предсказанного гена означает, что
программа предполагает продолжение гена за пределами данной ей
последовательности. Выделите зелёным цветом строки таблицы,
соответствующие предсказаниям, точно совпадающим с аннотацией. Желтым
цветом выделите строки, соответствующие предсказаниям, пересекающимся
с аннотированными генами, но не совпадающими с ними (если предсказанный
и аннотированный ген читаются в одной рамке). В таблице из п. 1 выделите
красным цветом гены, полностью пропущенные программой.
Посмотрите, как распределен кодирующий потенциал по ДНК, для этого
нажмите гиперссылку View PDF Graphical Output на странице с
предсказаниями GeneMark. На открывшемся PDF-рисунке вы увидите графики
распределения кодирующего потенциала для каждой рамки считывания на
обеих цепях ДНК. Приложите графики к отчёту. Выделите на них изображения
кодирующего потенциала для CDS, указанных в аннотации.
Часть 2. Поиск эукариотических генов
Вам дан фрагмент ДНК из генома человека, содержащий альтернативно
сплайсируемый ген (human_<фамилия>.txt). Ваша задача — найти две
различные изоформы этого гена (неодинаковые выранивания двух белков с
ДНК) и некодирующие экзоны, используя программы GENSCAN,
BlastX и
Human Genome Browser (HGB).
- С помощью программы GENSCAN выделите экзоны в
последовательности ДНК и определите их тип
GENSCAN — программа статистического распознавания генов, она
предсказывает границы экзонов и интронов, промоторы, сайты
полиаденилирования. Доступ к программе можно получить по ссылке
http://genes.mit.edu/GENSCAN.html. Скопируйте последовательность ДНК
в текстовое поле формы и нажмите кнопку Run GENSCAN. Программа GENSCAN
представляет результаты в виде таблицы экзонов. Вам будут нужны её
колонки Type, Begin и End.
Обязательно прочтите расшифровку обозначений
в разделе "Explanation" после таблицы. Занесите в свою таблицу начало, конец
и тип всех предсказанных программой экзонов (тип экзона: Init — initial
(начальный); Intr — internal (внутренний); Term — terminal (конечный)). Пример
таблицы:
Экзоны, предсказанные GenScan для human_Crick |
начало | конец | тип |
315 | 490 | начальный |
1009 | 1300 | внутренний |
- Выделите экзоны в последовательности ДНК с помощью программы BlastX и
сравните предсказания программ GENSCAN и BlastX
Доступ к web-интерфейсу программы BlastX можно получить сервере NCBI
(
http://www.ncbi.nlm.nih.gov/blast/, ищите нужную гиперссылку в
разделе Translated).
В меню "Choose database" оставьте предложенный по умолчанию банк nr.
Ниже в опциях найдите меню, позволяющее ограничить поиск только какой-нибудь
одной таксономической группой, и выберите в нём позвоночных (Vertebrata).
Отключите фильтр малой сложности (low complexity)!
Программа BlastX предскажет изоформы выданного Вам гена.
Найдите изоформы, различающиеся по числу экзонов.
Выберите две изоформы с разным числом экзонов.
Одна из них должна быть порождена белком, принадлежащим не человеку,
это может быть белок любого другого позвоночного.
BlastX определяет границы экзонов не точно:
- "Экзоны" Blast могут перекрываться как по ДНК, так и по белку. Вам нужно посмотреть на выравнивания таких "экзонов" и уточнить их границы на ДНК. Для этого посмотрите, какой "экзон" лучше выравнивается в области перекрытия. Считайте, что перекрытие принадлежит "экзону" с наилучшим выравниванием.
- Вставка в последовательности ДНК (гэп в белке), скорее всего, является интроном. Если вставка ДНК содержит стоп-кодон (отмечается знаком * на выравнивании), это прямое указание на интрон. Такой "экзон" нужно разбить на два "экзона".
- Blast выводит "экзоны" в случайном порядке. Для успешного выполнения задания вам нужно расположить "экзоны" в порядке возрастания координат по белку. Белковая координата конца предыдущего экзона должна быть на единицу меньше белковой координаты начала следующего экзона (или перекрываться на одну-три аминокислоты).
В отчете для каждой изоформы приведите выравнивание и отдельную
таблицу координат "экзонов" на белке и ДНК:
Название белка и организм |
координаты по белку | координаты по ДНК |
начало экзона 1 | начало экзона 1 |
конец экзона 1 | конец экзона 1 |
| |
начало экзона 2 | начало экзона 2 |
конец экзона 2 | конец экзона 2 |
Пример таблицы:
>gi|9621790|gb|AAF89534.1| serine protease [Mus musculus] |
координаты по белку | координаты по ДНК |
1 | 603 |
169 | 1109 |
| |
169 | 1211 |
237 | 1417 |
Покрасьте в этих таблицах красным цветом отличия изоформ —
альтернативные экзоны. Альтернативными называются экзоны,
которые либо отсутствуют в другой
изоформе, либо покрывают собой интрон, идентифицированный в другой
изоформе, либо имеют альтернативный 5'- или 3'-конец.
Внимание: из-за описанной
выше неточности программы BlastX отличия концов "экзонов" на 1–10
нуклеотидов не могут быть сочтены настоящей альтернативой.
Укажите отличия каждой изоформы от предсказания GENSCAN. Для этого
продублируйте таблицы BlastX-экзонов. В этих таблицах покрасьте
желтым цветом строки, соответствующие "потерянным" BlastX-экзонам (не
пересекающимся ни с одним GENSCAN-экзоном). В таблицу
с предсказанием GENSCAN добавьте колонку QQ. Перекрытие QQ — мера
близости двух систем отрезков, вычисляется как отношение длины
пересечения к длине объединения отрезков из этих систем. Покрасьте
зеленым цветом GENSCAN-экзоны, хорошо совпадающие с каким-либо
BlastX-экзоном (QQ>0,9), укажите QQ для этих экзонов. Покрасьте
красным цветом строки, соответствующие "лишним" GENSCAN-экзонам
(не пересекающиеся ни с одним из BlastX-экзонов в обеих изоформах).
- Найдите Ваш ген в геноме человека, используя программу
BLAT в Human Genome Browser. Выделите кодирующие и некодирующие экзоны
База Human Genome Browser (HGB)
(http://genome.ucsc.edu/cgi-bin/hgGateway)
содержит гены, белки, мРНК, EST и другие объекты,
картированные на геном человека (и не только человека).
Браузер позволяет просмотреть разнообразную информацию,
относящуюся к заданному фрагменту ДНК.
Программа BLAT аналогично BLAST позволяет искать последовательности
в геноме с учетом возможной фрагментированности генома.
Доступ к программе Human BLAT Search можно получить по ссылке
"Blat" с основной страницы портала (на синей полосе сверху).
Поместите последовательность ДНК в текстовое поле формы и нажмите кнопку
Submit.
Вы получите список найденных фрагментов генома.
Если в этом списке больше одной строки, выберите ту строку, которая имеет
максимальное сходство с вашей последовательностью по SCORE и максимальную длину
выравнивания. Определите, на какой цепи геномной ДНК (прямой или обратной)
находится Ваша последовательность (посмотрите знак в колонке STRAND),
также определите геномные координаты Вашей последовательности и номер хромосомы,
на которой она была найдена. Все эти параметры нужно указать в отчёте.
Для пересчета координат от геномных к координатам последовательности
определите число OFFSET: если Ваша последовательность находится
на прямой цепи, OFFSET=START(по хромосоме, после столбца STRAND)–1;
если же она находится на обратной цепи,
OFFSET=END(по хромосоме, перед столбцом SPAN)+1.
Это число будет использовано чуть позже.
Перейдите к визуальному просмотру найденного фрагмента генома:
нажмите гиперссылку browser.
Под картинкой находятся выпадающие меню для выбора отображаемых объектов.
Поставьте на pack переключатель
Blat Sequence в группе Mapping and Sequencing Tracks,
а также переключатели Human mRNAs и Spliced ESTs
в группе mRNA and EST Tracks, остальные переключатели поставьте на
hide. Нажмите кнопку refresh, она находится в самом низу страницы.
Теперь Вы видите, как выравниваются с геномной ДНК Ваша последовательность,
а также сплайсированные EST и мРНК из базы.
Вставьте картинку в отчет
(например, можно нажать на
клавиатуре сочетание двух кнопок <Alt+Print Screen> —
активное окно в виде картинки будет скопировано в буфер обмена,
а затем активизировать окно Word и нажать <Ctrl+V>).
Если щёлкнуть по изображению мРНК или EST, появляется её подробное описание.
На этой страничке в разделе mRNA/Genomic Alignments
перейдите по гиперссылке с выравниванием,
а потом найдите раскрашенную последовательность,
заголовок которой начинается с "Genomic".
На ней синим выделены кодирующие участки, красным — некодирующие,
чёрным — интроны и участки генома за границей выравнивания.
Экзоны могут быть полностью кодирующими, полностью некодирующими,
а также смешанными — частично кодирующими и частично некодирующими
(это экзоны, содержащие старт- и стоп-кодоны).
Предъявите какие-либо нетранслируемые экзоны с указанием идентификатора
порождающей мРНК в координатах вашей последовательности.
Если ваша последовательность находится на прямой цепи ДНК из геномных координат
необходимо вычесть OFFSET (<координата в последовательности>=
<координата в геноме>–OFFSET), если последовательность на обратной цепи,
то из OFFSET необходимо вычитать геномные координаты
(<координата в последовательности>=OFFSET–<координата в геноме>).
Не пугайтесь, если получите отрицательные значения координат или координаты с
3'-конца будут за пределами последовательности!
К отчету приложите файл с выравниванием, подтверждающим найденные вами
некодирующие экзоны.
Предъявите какие-либо внутренние, не предсказанные BlastX, кодирующие
экзоны в координатах последовательности с указанием порождающей мРНК или EST
(если, конечно, такие экзоны есть). К отчету приложите файл с выравниванием,
подтверждающим найденные вами экзоны.
ОБЯЗАТЕЛЬНО в отчете приведите сохраненную Вами картинку из HGB,
выделите на ней найденные экзоны!
Найденные в Human Genome Browser экзоны оформите в виде таблицы:
идентификатор мРНК |
начало экзона |
конец экзона |
тип экзона |
10 |
90 |
кодирующий |
|
|