Функции. Онтологии базы данных GO

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Найдем описание белка DACB_ECOLI в www.uniprot.org/. Перейдем по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI. Содержание занесем в таблицу:

      Описание функции белка DacB_Ecoli в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? Cellular component 1 Область между внутренней (цитоплазма или плазма) мембраной и наружной мембраной двумембранного организма, такого как грамотрицательные бактерии. Это периплазматическое пространство довольно широкое и содержит тонкую клеточную стенку.
      Зачем, для чего? Biological process 12 Процесс формирования двух похожих клеток путем деления одной; процесс размножения большинства бактерий.
      Биохимические и морфологические фазы и события, которые происходят в клетке во время репликации. Клеточный цикл включает в себя процес репликации и расхождения генетического материала при делении клетки, но в эндоцикле или в синцитиальных клетках ядерное деление может не происходить при делении клетки.
      Молекулярный механизм? Molecular function 4 Катализ гидролиза внутренних альфа-пептидных связей в полипептидной цепи.
      (Ac)2-L-Lys-D-alanyl-D-alanine + H2O = (Ac)2-L-Lys-D-alanine + D-alanine.
      Связывание с пенициллином.
      Специфичность? Molecular function 4 карбоксипептидазная активность

    3. Описание термина GO
    4. Выберите 3 наиболее содержатальных термина GO, ассоциированных с изучаемым белком DACB_ECOLI, по одному термину из каждого словаря GO. Проведем поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Заполним следующую таблицу:

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0030288 outer membrane bounded periplasmic space
      outer membrane-enclosed periplasmic space
      GO:0030313 : cell envelope;
      GO:0044462 : external encapsulating structure part;
      GO:0042597 : periplasmic space
      GO:0031236 : extrinsic to external side of plasma membrane, in periplasmic space;
      GO:0031237 : intrinsic to external side of plasma membrane, in periplasmic space;
      GO:0009002 D-alanyl carboxypeptidase activity;
      D-alanyl-D-alanine carboxypeptidase activity;
      D-alanyl-D-alanine-carboxypeptidase activity;
      D-alanyl-D-alanine-cleaving peptidase activity;
      D-alanyl-D-alanine-cleaving-peptidase activity;
      DD-peptidase activity;
      DD-transpeptidase activity
      GO:0004185 : serine-type carboxypeptidase activity не найдено
      GO:0004185 serine carboxypeptidase activity GO:0004180 : carboxypeptidase activity;
      GO:0070008 : serine-type exopeptidase activity
      GO:0009002 : serine-type D-Ala-D-Ala carboxypeptidase activity;


    Граф родительских, дочерних терминов и терминов-сибсов GO:0030288 (view)
    Граф родительских, дочерних терминов и терминов-сибсов GO:0009002 (view)
    Граф родительских, дочерних терминов и терминов-сибсов GO:0004185 (view)

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из Triticum
    2. Таксон "ПШЕНИЦА":

      русское название - пшеница;
      английское название - wheat;
      латинское название - triticum;
      ранг таксона - род;
      NCBI_TaxID - 4564;
      Затем обратимся к SRS. Определим, как проиндексировано поле ProteinExistence БД UniProt:

      - evidence at protein level (Существование белка доказано экспериментально);
      - evidence at transcript level (Известны только соответствующие транскрипты);
      - inferred from homology (Гипотетический белок, предсказан по гомологии);
      - predicted (Иные предсказанные гипотетические белки);
      - uncertain (не определен)

      Соотношение между реальными и гипотетическими белками из пшеницы (по данным UniProt)

        Количество в UniProt
      Существование белка доказано экспериментально 179
      Известны только соответствующие транскрипты 2496
      Гипотетический белок, предсказан по гомологии 814
      Иные предсказанные гипотетические белки 3957

    3. Определение качества функциональной аннотации в UniProt
    4. Определиv с помощью одного запроса к SRS, сколько из реальных белков таксона пшеницы аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции (Guide to GO Evidence Codes).
      Коды экспериментального доказательства функции:

      * Inferred from Experiment (EXP)
      * Inferred from Direct Assay (IDA)
      * Inferred from Physical Interaction (IPI)
      * Inferred from Mutant Phenotype (IMP)
      * Inferred from Genetic Interaction (IGI)
      * Inferred from Expression Pattern (IEP)

      Составим запрос для SRS:
      (([swissprot-Organism:Triticum*] & ((((([swissprot-ProteinExistence:1:*] & [swissprot-ProteinExistence:evidence*]) & [swissprot-ProteinExistence:at*]) & [swissprot-ProteinExistence:protein*]) & [swissprot-ProteinExistence:level*]) | [swissprot-ProteinExistence:1: evidence at protein level*]) ) & (([swissprot-DBxref_:P:*] & [swissprot-DBxref_:C:*] & [swissprot-DBxref_:F:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))

      Увы, такой запрос ничего не нашел. Тогда уберем поиск по трем словарям:

      (([swissprot-Organism:Triticum*] & ((((([swissprot-ProteinExistence:1:*] & [swissprot-ProteinExistence:evidence*]) & [swissprot-ProteinExistence:at*]) & [swissprot-ProteinExistence:protein*]) & [swissprot-ProteinExistence:level*]) | [swissprot-ProteinExistence:1: evidence at protein level*]) ) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*]))

      А вот такой запрос нашел 4 белка, но, к сожалению, среди них нет ни одного белка, который был бы проанноториван во всх трех словарях.

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. Поищем все белки пшеницы (Triticum), выполняющих функцию биосинтеза аминокислот (amino acid biosynthesis) на сайте консорциума Gene Ontology. Такой белок имеет ID GO:0046437 (словарь biological process). Запрос к SRS:

      ([Taxonomy:Triticum*] & [DBxref_:GO:0046437*])

      Такой запрос ничего не нашел.

    3. Определение главной функции в большом списке белков
    4. Дан файл P24228.txt со списком белков, полученный в результате массового эксперимента. Список включает и заданный белок DACB_ECOLI. Задача – определить белки с какими функциями доминируют в этом списке. Для этого используем программу GOstat. На вход подаем наш файл;в поле "Available GO gene-association databases & commonly used gene collections" выбираем БД goa_uniprot; в поле "Maximal p-value in GO output list" выбираем значение 0.01.
      На аыходе получаем список терминов.


      GO Онтология GO Термин
      GO:0005886 cellular component plasma membrane
      GO:0000270 biological process peptidoglycan metabolic process
      GO:0005515 molecular function protein binding
      GO:0022603 biological process regulation of anatomical structure morphogenesis
      GO:0022604 biological process regulation of cell morphogenesis
      GO:0008360 biological process regulation of cell shape
      GO:0050793 biological process regulation of developmental process
      GO:0009252 biological process peptidoglycan biosynthetic process
      GO:0004180 molecular function carboxypeptidase activity
      GO:0007047 biological process cellular cell wall organization
      GO:0045229 biological process external encapsulating structure organization
      GO:0009002 molecular function serine-type D-Ala-D-Ala carboxypeptidase activity
      GO:0009273 biological process peptidoglycan-based cell wall biogenesis
      GO:0031504 biological process peptidoglycan-based cell wall organization
      GO:0042546 biological process cell wall biogenesis
      GO:0032989 biological process cellular component morphogenesis
      GO:0000902 biological process cell morphogenesis
      GO:0009653 biological process anatomical structure morphogenesis
      GO:0009254 biological process peptidoglycan turnover
      GO:0048856 biological process anatomical structure development
      GO:0004185 molecular function serine-type carboxypeptidase activity
      GO:0008238 molecular function exopeptidase activity
      GO:0009597 biological process detection of virus
      GO:0009595 biological process detection of biotic stimulus
      GO:0017171 molecular function serine hydrolase activity
      GO:0008236 molecular function serine-type peptidase activity
      GO:0005975 biological process carbohydrate metabolic process
      GO:0032502 biological process developmental process
      GO:0042597 cellular component periplasmic space
      GO:0016051 biological process carbohydrate biosynthetic process


      В выборке доминируют белки с функцией морфогенеза анатомической структуры, а точнее клеточной стенки.

© Азнаурян 2008 marina-91@list.ru