Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2011

Практикум 7

Известно несколько типов прокариотических систем секреции белков, см., например, KEGG. См. также диск P: .. Term_4/InTexts. Они состоят из нескольких, или даже многих, генов.

Задача. Дан ген из прокариотической системы секреции

Таблица генов (белков)

  1. Определить к какой системе принадлежит.
  2. Расшифровать термины GO, ассоциированные c геном и с этой системой
  3. Определить функциональную роль данного белка в системе
  4. Найти ортологов в полных геномах бактерий
  5. Отобрать 10-15 ортологов (из разных родов, если возможно)
  6. Сравнить состав генов в окрестностях +/- 15000 п.н. отобранных ортологов. Описать те гены, гомологи которых встречаются в нескольких окрестностях из удаленных бактерий. Все ли они отнесены к данной системе, по данным SEED?
  7. Вынести решение о принадлежности найденных ортологов системе и о генах системы, ко-локализованных с данным геном.

К следующему занятию (2 апр): На странице своего сайта представить следующую информацию

  1. Название и краткое текстовое описание системы секреции (можно – с картинкой)
  2. Расшифровку терминов GO, связанных с системой и данным белком/геном (по крайней мере, тех терминов, идентификаторы которых указаны в записи Uniprot вашего белка)
  3. Сопоставленные карты окрестностей отобранных ортологов (скриншот из SEED)
  4. Описание сходства и различий окрестностей ортологов (словесное или в виде таблицы), ваши наблюдения (или вопросы) по поводу этих окрестностей
  5. Заключение: какие гены системы колокализованы с данным? Всегда ли одни и те же? Какая часть от общего числа основных генов системы (не четкого правила что значит основной ген; но если он найден в большинстве систем, то, наверное, он основной).

2 апр будет проверено наличие страниц по заданию; проверяться будут постепенно, если повезет - успеете доработать.

Методы решения, по пунктам

  1. Способы решения
    1. прочитать аннотацию записи
    2. в записи найти идентификаторы GO и изучить термины по БД GO
    3. BLAST: найти ближайших гомологов и для них выполнить п. a и b
    4. Найти систему, используя KEGG; для этого искать ORFname (он же – LocusName) из поля GN записи Uniprot среди Genes БД KEGG.

  2. Идентификаторы GO находятся в поле DR записи (ссылки на др. БД). Они бывают трех типов:

F – function, P – biological process, C – cellular component. Описание конкретного термина см. в БД GO (http://www.geneontology.org/). Помните, что термины GO образуют иерархическую систему понятий.

п.п. 3-6 рекомендуется выполнять в БД SEED (http://theseed.uchicago.edu/FIG/)

  1. Способы решения
    1. (Рекомендуемый) SEED (FIG): Поиск BLAST в своем или близкородственном геноме (BLAST там работает по одному геному только!?). Оценка сходства с гомологом - E < 1e-7; бывают случаи, когда в одном штамме такого гомолога нет, а в других - есть (так, патогенные E.coli имеют секреторную систему типа III, а не патогенные - не имеют)

    2. KEGG, поиск по LocusName (не рекомендуемый: секреторные системы описаны в KEGG не также хорошо, как метаболические пути; зато есть 3D картинки)

    3. Запись Uniprot, расшифровка функции, ссылка на БД Pfam изучение описаний доменов там, поиск статей в PubMed, BLAST против протеомов для поиска лучше аннотированного гомолога.

  2. SEED (FIG) Пройдите по ссылке на найденный ген. Откроется графическое окно с 4я гомологами из разных геномов . Регулируя параметр числа геномов (Number of regions), E-value cut off (меню Advanced), отключение галочек и “update with selected” для устранения похожих геномов получите рекомендуемое число ортологов
  3. То же, что 4. Закажите сначала побольше ортологов (Number of regions = 50). Если все равно недостаточно, то увеличьте E-value cut off, например, до 1e-6. Старайтесь
    1. Не оставлять много геномов с одинаковыми или похожими окрестностями гомологов данного гена гена
    2. Увеличить размер окрестности (до 30000 п.н., т.е. +-15000 п.н.), чтобы проверить нет ли гомологичных генов в большей окрестности
    3. Повысить порог E-value чтобы получить более далеких гомологов, но все еще принадлежащих той же системе (если судить по окрестности).
  4. На карте окрестностей гомологичные гены отмечены цветом и номером.
    1. Для объяснения "потери" гена иногда полезно снизить E-value cut off для генов в окрестности (отличать от E-value cut off для исследуемого гена!): может быть, для каких-то генов сходство меньше... (Делается в меню Advanced)
    2. Для того, чтобы посмотреть на описание SEED системы целиком найдите ее среди систем (subsystems, см. на головной странице). Там есть список ролей и таблица “геномы против ролей”.

(*) Те же задачи (и некоторые другие) можно решить в БД STRING (http://string-db.org/). Попробуйте и сравните эти две БД-х на своем примере.