МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

III Семестр

IV Семестр

Проекты

Обратная Связь

Функции. Онтологии базы данных GO.

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Открыл страницу UniProt с описанием белка GLK_ECOLI. Перешел по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI. Рассмотрел открывшуюся таблицу и нашел гиперссылки на странички с описанием терминов. Полученные результаты записал в таблицу.

      Описание функции белка GLK_ECOLI в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? cellular component (клеточный компонент) - C 1 GO:0005737: Цитоплазма (Все содержимое клетки, не включающее клеточную мембрану и ядро, но включающее остальные внутриклеточные компоненты)
      Зачем, для чего? biological process (биологический процесс) - P 1 GO:0006096: Гликолиз (Химическая реакция заключающаяся в расщеплении моносахарида (как правило глюкозы) в пируват, с образованием небольшого количества АТФ. Пируват может быть превращен в этанол, лактат или другие малые молекулы, или участвовать в цикле трикарбоновых кислот)
      Молекулярный механизм? molecular function (молекулярная функция) - F 3 GO:0016740: Трансферазная активность (Катализирует перенос группы, например метильной, гликозильной, ацильной, фосфор-содержащей и другие группы от одного or other groups, от одного компонента (выступает в качестве донора) к другому (являющимся акцептором))
      GO:0016301: Киназная активность (Катализирует перенос фосфатной группы, как правило от АТФ к молекуле субстрата)
      GO:0000166: Cвязывает нуклеотид (Селективное и нековалентное взаимодействие с нуклеотидом)
      Специфичность? molecular function (молекулярная функция) - F 2 GO:0004340: Глюкокиназная активность (Катализирует реакцию: АТФ + D-глюкоза = АДФ + D-глюкоза 6-фосфат)
      GO:0005524: Cвязывает АТФ (Селективное и нековалентное взаимодействие с АТФ)

    3. Описание термина GO
    4. Выбрал 3 наиболее содержатальных, на мой взгляд, термина GO, ассоциированных с белком GLK_ECOLI, по одному термину из каждого словаря GO. Выбрал из словоря P: glycolysis, из F: ATP binding, из C: cytoplasm. Провел поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Полученные результаты записал в таблицу.

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0006096 родственный синоним: анаэробный гликолиз (anaerobic glycolysis), модифицированный путь Embden-Meyerhof (modifed Embden-Meyerhof pathway)
      alt_id: GO:0019641, GO:0019642
      точный синоним: путь Embden-Meyerhof, путь Embden-Meyerhof-Parnas
      GO:0006007: glucose catabolic process, тип связи "is a"
      GO:0006091: generation of precursor metabolites and energy, тип связи "is a"
      GO:0045821: positive regulation of glycolysis, тип связи "positively regulates"
      GO:0006110: regulation of glycolysis, тип связи "regulates"
      GO:0045820: negative regulation of glycolysis, тип связи "negatively regulates"
      GO:0005524 Нет синонимов GO:0032559: adenyl ribonucleotide binding, тип связи "is a" Дочерних терминов у этого термина нет.
      GO:0005737 Нет синонимов GO:0044424: intracellular part, тип связи "is a" GO:0044444: cytoplasmis part, тип связи "part of"
      GO:0045495: pole plasm, тип связи "is a"
      GO:0016528: sarcoplasm, тип связи "is a"

      Скачать файлы с изображением графа родительских, дочерних терминов и терминов-сибсов: GO:0006096, GO:0005524, GO:0005737, (более хорошее изображение графа GO:0005737).

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из Triticum
    2. Русское название: Пшеница
      Английское название: Wheat
      Латинское название: Triticum
      Ранг таксона: род
      NCBI_TaxID: 4564
      Теперь обратимся к SRS и определим число реальных и гипотетических белков из пшеницы. Вначале изучим, как проиндексировано поле ProteinExistence. Оно может принимать следующие значения:
      1: evidence at protein level (cуществование белка доказано экспериментально);
      2: evidence at transcript level (известны только соответствующие транскрипты);
      3: inferred from homology (гипотетический белок, предсказанный по гомологии);
      4: predicted (иные предсказанные гипотетические белки);
      5: uncertain (существование белка не доказано).

      Для того, чтобы определить количество записей в UniRef100 я воспользовался Excel. В результате чего получил файл uniprot.xls и swiss.xls, где на странице "uniref_all" стоят записи выданные SRS, а на странице "uniref_table" с помощью сводной таблицы было определено количество уникальных записей.

      Соотношение между реальными и гипотетическими белками из Triticum (по данным UniProt)

        Количество в UniProt Количество в UniRef100
      Существование белка доказано экспериментально 155 153
      Известны только соответствующие транскрипты 2388 2369
      Гипотетический белок, предсказан по гомологии 596 499
      Иные предсказанные гипотетические белки 2766 2209

      Существование большинства белков пшеницы(по данным Uniprot) обосновано на основе предсказания белки, но предсказанные не по гомологии белки. На "втором месте" обосновано на транскриптах. Далее следуют белки, предсказанные по гомологии. Среди основных четырех групп меньше всего белков, существование которых доказано экспериментально.

      Соотношение между реальными и гипотетическими белками из Triticum (по данным SwissProt)

        Количество в SwissProt Количество в UniRef100
      Существование белка доказано экспериментально 114 114
      Известны только соответствующие транскрипты 120 120
      Гипотетический белок, предсказан по гомологии 107 107
      Иные предсказанные гипотетические белки 3 3

      Существование большинства белков пшеницы (по данным SwissProt) обосновано на транскриптах. На "втором месте" белки, существование которых доказано экспериментально. Далее следуют белки, предсказанные по гомологии. И совсем маленькое количество белков предсказанных не по гомологии белки, скорее всего, это можно объяснить тем, что доказательства, основанные не на гомологии, недостаточно сильны, чтобы помещать белок в SwissProt.

    3. Определение качества функциональной аннотации в UniProt
    4. Определим, сколько из реальных белков пшеницы (Triticum), у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции, аннотированы по всем трем словарям GO. Кодов экспериментального доказательства функции существует всего 6:
      1. Inferred from Experiment (EXP) (получено из эксперимента);
      2. Inferred from Direct Assay (IDA) (получено из прямого анализа);
      3. Inferred from Physical Interaction (IPI) (получено из физического взаимодействия);
      4. Inferred from Mutant Phenotype (IMP) (получено из мутантного фенотипа);
      5. Inferred from Genetic Interaction (IGI) (получено из генетического взаимодействия);
      6. Inferred from Expression Pattern (IEP) (получено из модели экспрессии).
      После чего составил следующий запрос для SRS:
      Organism name Triticum
      ProteinExistence 1: evidence at protein level
      DBxref_ (P:&F:&C:)&(EXP:|IDA:|IPI:|IMP:|IGI:|IEP:)

      Но SRS не смог справиться с таким запросом. После чего я убрал ограничение по трем словорям ((P:&F:&C:)) в результате чего было найдено четыре белка, но ни у одного из них не было аннотации во всех трех словарях GO. Это связано с тем, что в UniProt очень мало экспериментально полученных белков (имеющих один из кодов экспериментального доказательства функции GO) с полностью изученной функцией (аннотированных по всем трем словарям GO).

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. Проведем поиск всех белков из пшеницы (Triticum), выполняющих функцию биосинтез пиримидинов. Для этого вначале проведем поиск среди всех терминов GO на сайте консорциума Gene Ontology. Искать будем термин "pyrimidine biosynthesis". Обнаружился несколько соответствующих терминов в GO, самые подходящие имеют ID - GO:0019856 и GO:0006221. Эти термины относятся к словарю Biological Process (Р). Запрос SRS: ([uniprot-Taxonomy:Triticum*] & [uniprot-DBxref_:GO:0019856*]) и ([uniprot-Taxonomy:Triticum*] & [uniprot-DBxref_:GO:0006221*]) не выявил ни одной находки.

    3. Определение главной функции в большом списке белков
    4. Был выдан файл P0A6V8.txt со списком белков, полученных в результате массового эксперимента, включающий изучаемый белок GLK_ECOLI.
      В поле Group IDs был подгружен выданный файл.
      В поле "Available GO gene-association databases & commonly used gene collections" была выбрана БД goa_uniprot.
      Поле "Maximal p-value in GO output list" было установлено в значение 0.01.
      Значения остальных полей не изменялись.
      Был получен список терминов в порядке возрастания P-value. Для определения скачка построил график десятичного логарифма P-value. Имеется несколько скачков, но наиболее значимый начинается на GO:0000267 (4,69*10-17). Рассмотрим значения терминов до скачка (им можно доверять). Результаты занесем в таблицу.

      GO Онтология GO (название словаря) Термин
      GO:0006096 biological process glycolysis
      GO:0006007 biological process glucose catabolic process
      GO:0019320 biological process hexose catabolic process
      GO:0046365 biological process monosaccharide catabolic process
      GO:0044275 biological process cellular carbohydrate catabolic process
      GO:0046164 biological process alcohol catabolic process
      GO:0006006 biological process glucose metabolic process
      GO:0005975 biological process carbohydrate metabolic process
      GO:0005886 cellular component plasma membrane
      GO:0016052 biological process carbohydrate catabolic process
      GO:0019318 biological process hexose metabolic process
      GO:0044265 biological process cellular macromolecule catabolic process
      GO:0005996 biological process monosaccharide metabolic process
      GO:0006066 biological process alcohol metabolic process
      GO:0044262 biological process cellular carbohydrate metabolic process
      GO:0009057 biological process macromolecule catabolic process
      GO:0044248 biological process cellular catabolic process
      GO:0009056 biological process catabolic process
      GO:0005515 molecular function protein binding
      GO:0005624 cellular component membrane fraction
      GO:0000267 cellular component cell fraction

      В выборке доминируют белки с функциями метаболизма углеводов, в частности, глюкозы.
      Доминирующая локализация белков: в мембране.
      Специфичность: связывание с белками.

      Сравним полученные функции с терминами, ассоциированными с заданным белком (GLK_ECOLI). Единственный термин, относящийся к белку GLK_ECOLI: GO:0006096. Хотя все основные доминирующие термины (расположенные на шкале P-value до скачка), приписаны или являются родительскими для терминов, относящихся к белку GLK_ECOLI.


© 2008, Илья Курочкин