Функции. Онтологии базы данных GO

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Задан белок G6PI_ECOLI. Найдем его описание на UniProt.

      Описание функции белка G6PI_ECOLI в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? cellular component 2 GO:0005737 cytoplasm - цитоплазма
      GO:0005829 cytosol - цитозоль (гиалоплазма)
      Зачем, для чего? biological process 2 GO:0006094 gluconeogenesis - биосинтез глюкозы из неуглеводных субстратов
      GO:0006096 glycolysis - расщепление глюкозы
      Молекулярный механизм? molecular function 1 GO:0016853 isomerase activity - изомеразная активность - катализ внутримолекулярных структурных перестроек органических соединений
      Специфичность? molecular function 1 GO:0004347 glucose-6-phosphate isomerase activity - катализ внутримолекулярных структурных перестроек глюкозо-6-фосфата

      Описание термина GO

      Выберу 3 термина GO, ассоциированных с данным белком, по одному термину из каждого словаря GO. Проведу поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology.

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0005829

      отсутствуют

      GO:0044444 : cytoplasmic part (is a) GO:0044445 : cytosolic part (part of)
      GO:0006096 related: anaerobic glycolysis
      related: modifed Embden-Meyerhof pathway
      exact: Embden-Meyerhof pathway
      exact: Embden-Meyerhof-Parnas pathway
      GO:0006007 : glucose catabolic process (is a)
      GO:0006091 : generation of precursor metabolites and energy (is a)
      GO:0045820 : negative regulation of glycolysis (negatively regulated)
      GO:0045821 : positive regulation of glycolysis (posytively regulated)
      GO:0006110 : regulation of glycolysis (regulated)
      GO:0004347 related: oxoisomerase activity
      exact: D-glucose-6-phosphate aldose-ketose-isomerase activity
      exact: D-glucose-6-phosphate ketol-isomerase activity
      exact: glucose phosphate isomerase activity
      exact: hexose phosphate isomerase activity
      exact: phosphoglucoisomerase activity
      exact: phosphoglucose isomerase activity
      broad: hexose monophosphate isomerase activity
      broad: hexosephosphate isomerase activity
      broad: phosphohexoisomerase activity
      broad: phosphohexomutase activity
      broad: phosphohexose isomerase activity
      broad: phosphosaccharomutase activity
      GO:0016861 : intramolecular oxidoreductase activity, interconverting aldoses and ketoses (is a) отсутствуют
      Граф родительских, дочерних терминов и терминов-сибсов для GO:0005829 построить не удалось (выводилась ошибка). Построил графф родительских и дочерних терминов.
      Граф родительских, дочерних терминов и терминов-сибсов для GO:0006096.
      Граф родительских, дочерних терминов и терминов-сибсов для GO:0004347.

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из Орангутана
    2. Русское название: Орангутан  
      Английское название: Orangutan
      Латинское название: Pongo
      Ранг таксона: род
      NCBI_TaxID: 9599

      Соотношение между реальными и гипотетическими белками из Орангутана (по данным UniProt)

        Количество в UniProt
      Существование белка доказано экспериментально
      (evidence at protein level)
      9
      Известны только соответствующие транскрипты
      (evidence at transcript level)
      3776
      Гипотетический белок, предсказан по гомологии (inferred from homology) 521
      Иные предсказанные гипотетические белки (predicted) 827

      Как видно, существование очень малого числа белков доказано экспериментально - примерно 0,17%.
      Больше всего белков, известных только по соответствующим транскриптам - примерно 74%.
      Гипотетических белков, предсказанных по гомологии оказалось около 10%.
      Иных предсказанных гипотетически белков оказалось около 16%.

    3. Определение качества функциональной аннотации в UniProt
    4. Определим с помощью одного запроса к SRS, сколько из реальных белков Орангутана аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции

      Под реальными белками будем понимать белки, существование которых подтверждено экспериментально.

      Кодов экспериментального доказательства функции существует 6:
      1. Inferred from Experiment (EXP) (получено из эксперимента);
      2. Inferred from Direct Assay (IDA) (получено из прямого анализа);
      3. Inferred from Physical Interaction (IPI) (получено из физического взаимодействия);
      4. Inferred from Mutant Phenotype (IMP) (получено из мутантного фенотипа);
      5. Inferred from Genetic Interaction (IGI) (получено из генетического взаимодействия);
      6. Inferred from Expression Pattern (IEP) (получено из модели экспрессии).


      Запрос:

      Organism name Pongo
      ProteinExistence 1: evidence at protein level
      DBxref_ GO:&P:&F:&C:&(EXP:|IDA:|IPI:|IMP:|IGI:|IEP:)

      Не нашлось ни одного белка.
      В UniProt экспериментально полученных белков с полностью изученной функцией очень мало.
      Функции большинства белков либо не до конца изучены, либо существование этих белков не доказано экспериментально.

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. Функция: биосинтез липидов
      Перевод названия функции на английский: lipid biosynthesis

      Выбранный термин GO:
      : lipid biosynthetic process
      Данный термин относится к онтологии biological process


      Запрос:

      Organism name Pongo
      DBxref_ GO:0008610
      ([uniprot-Organism:pongo*] & [uniprot-DBxref_:GO:0008610*])
      Найдено 2 белка. Их последовательности в fasta-формате.

    3. Определение главной функции в большом списке белков
    4. Дан файл P0A6T1.txt. В этом файле – список белков, полученный в результате массового эксперимента. Список включает и заданный белок. Необходимо определить – белки с какими функциями доминируют в этом списке. Использовать для этого программу GOstat.

      В поле Group IDs был подгружен выданный файл
      В поле "Available GO gene-association databases & commonly used gene collections" была выбрана БД goa_uniprot.
      Поле "Maximal p-value in GO output list" было установлено в значение 0.01
      Значения остальных полей не изменялись.

      Был получен список терминов GO в порядке возрастания P-value (чем ниже P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов).

      GO:0006094
      2.15e-10
      GO:0046364
      2.15e-10
      GO:0019319
      2.15e-10
      GO:0046165
      2.25e-10
      GO:0006090
      2.78e-10
      GO:0005886
      1.26e-09
      GO:0032787
      1.89e-06
      GO:0006006
      8.52e-06
      GO:0003941
      9.49e-06
      GO:0019318
      1.59e-05
      GO:0005996
      2.28e-05
      GO:0051536
      3.74e-05
      GO:0051540
      3.74e-05
      GO:0006066
      8.81e-05
      GO:0019752
      0.000194
      GO:0044262
      0.000194
      GO:0006082
      0.000194
      GO:0051539
      0.000194
      GO:0046872
      0.000194
      GO:0043169
      0.000209
      GO:0016841
      0.000274
      GO:0043167
      0.000332
      GO:0016051
      0.000332
      GO:0016840
      0.00109
      GO:0005515
      0.0011
      GO:0005975
      0.0011
      GO:0046914
      0.00168
      GO:0031556
      0.00681

      После первых 6 терминов GO c самым низким P-value наблюдается заметный скачок значения P-value (с 1.26e-09 до 1.89e-06). Это признак порогового значения. Таким образом, можно доверять 6 терминам GO:

       

      GO Онтология GO (название словаря) Функция P-Value
      GO:0006094
      biological process The formation of glucose from noncarbohydrate precursors, such as pyruvate, amino acids and glycerol.
      Образование глюкозы из неуглеводных предшественников, таких как пируват, аминокислоты и глицерин.
      2.15e-10
      GO:0046364
      biological process The chemical reactions and pathways resulting in the formation of monosaccharides, polyhydric alcohols containing either an aldehyde or a keto group and between three to ten or more carbon atoms
      Химические реакции и пути, в результате которых образуются моносахариды, многоатомные спирты, содержащие альдегидную или кето-группу и от 3 ло 10 или более углеродных атомов.
      2.15e-10
      GO:0019319
      biological process

      The chemical reactions and pathways resulting in the formation of hexose, any monosaccharide with a chain of six carbon atoms in the molecule.
      Химические реакции и пути, в результате которых образуются гекозы.

      2.15e-10
      GO:0046165
      biological process The chemical reactions and pathways resulting in the formation of alcohols, any of a class of compounds containing one or more hydroxyl groups attached to a saturated carbon atom.
      Химические реакции и пути, в результате которых образуются спирты.
      2.25e-10
      GO:0006090
      biological process The chemical reactions and pathways involving pyruvate, 2-oxopropanoate
      Химические реакции и пути, в которых участвует пируват.
      2.78e-10
      GO:0005886
      cellular component The membrane surrounding a cell that separates the cell from its external environment. It consists of a phospholipid bilayer and associated proteins.
      Мембрана, окружающая клетку, отделяющая её от внешней среды. Состоит из фосфолипидного бислоя и ассоциированных белков.
      1.26e-09


В выборке доминируют белки с функциями метаболизма моносахаридов, в частности глюкозы.

      Среди наиболее частых функций выборки встретилась только одна из заданного белка: GO:0006094 - Образование глюкозы из неуглеводных предшественников.


©2008-2010 Михальченко Алексей