Занятие 7. Функции. Онтологии базы данных GO.

  1. Знакомство с терминологией GO

    1. Описание функции белка с помощью аннотации Gene Ontology
    2. По данным страницы браузера QuickGO EBI (переход по гиперссылке "Complete GO annotation..." в записи Uniprot) для белка NadB_Ecoli (P10902) была заполнена следующая таблица:

      Описание функции белка NadB_Ecoli в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? Cellular Component 1 цитоплазма
      Зачем, для чего? Biological Process 4 1) окислительно-восстановительные реакции
      2) биосинтез NAD
      3) биосинтез пиридиновых нуклеотидов
      4) de novo биосинтез NAD из аспартата
      Молекулярный механизм? Molecular Function 3 1) окислительно-восстановительная активность
      2) окисление L-аспартата
      3) перенос электронов
      Специфичность? Molecular Function 1 связывание с флавинаденидинуклеотидом (FAD-связывание)
    3. Описание термина GO

      Было выбрано 3 термина GO, ассоциированных с изучаемым белком, по одному из каждого словаря GO:
        Molecular Function - GO:0016491 (oxidoreductase activity)
        Biological Process - GO:0055114 (oxidation reduction)
        Cellular Component - GO:0005737 (cytoplasm)
      Поиск описаний выбранных терминов был проведен на главном сайте консорциума Gene Ontology. По результатам поиска была составлена таблица:

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0055114 oxidoreductase process GO:0008152 : метаболический процесс; связь "is a" GO:0022900 : electron transport chain; связь "is a"
      GO:0071615 : oxidative deethylation; связь "is a"
      GO:0070989 : oxidative demethylation; связь "is a"
      GO:0016491 oxidoreductase activity, acting on other substrates, redox activity GO:0003824 : catalytic activity 84 ближайших дочерних термина (см список);
      все связи "is a" типа
      GO:0005737 нет GO:0044424 : intracellular part GO:0044444 : cytoplasmic part; связь "part of"
      GO:0045495 : pole plasm; связь "is a"
      GO:0016528 : sarcoplasm; связь "is a"
      Граф родительских, дочерних терминов и терминов-сибсов для GO:0055114
      Граф родительских, дочерних терминов и терминов-сибсов для GO:0016491
      Граф родительских, дочерних терминов и терминов-сибсов для GO:0005737
  2. Оценка качества функциональной аннотации белков в UniProt

    1. Определение числа реальных и гипотетических белков из таксона Орангутанг

      Краткое описание таксона:
      Русское название: Орангутанг (орангутан)
      Английское название: Orangutan 
      Латинское название: Pongo 
      Ранг таксона: род 
      NCBI_TaxID: 9599
      

      Соотношение между реальными и гипотетическими белками из таксона Орангутанг(по данным UniProt)

        Количество в UniProtKB
      Существование белка доказано экспериментально 9
      Известны только соответствующие транскрипты 3776
      Гипотетический белок, предсказан по гомологии 518
      Иные предсказанные гипотетические белки 830
      Недостоверный белок 1

      Соответствующие диаграммы результатов:

      Бордовым цветом обозначены белки, в которых известны 
                      только соответствующие транскрипты;
      синим - белки, чье существование доказано экспериментально;
      фиолетовым - гипотетические белки, предсказанные по гомологии;
      зеленым - иные предсказанные гипотетические белки;
      голубым - недостоверные белки.
      
      Как видно из таблицы и диаграмм наиболее широко представлены белки, обоснованные наличием соответствующих транскриптов. Довольно много гипотетических белков, предсказанных по гомологии и иными способами. Белков, существование которых доказано экспериментально совсем мало (9); белки, которые явлются недостоверными - 1. Аналогичный поиск был проведен для БД SwissProt:

      Соотношение между реальными и гипотетическими белками из таксона Орангутанг (по данным SwissProt)

        Количество в SwissProt
      Существование белка доказано экспериментально 9
      Известны только соответствующие транскрипты 2113
      Гипотетический белок, предсказан по гомологии 318
      Иные предсказанные гипотетические белки 5
      Недостоверный белок 1
      Как видно, основное различие между результатами в UniProt и SwissProt наблюдается в гипотетических белках, предсказанных не по гомологии. Возможно, это объясняется тем, что такие предсказания не являются достаточными для помещения соответствующих белков в SwissProt.
    2. Определение качества функциональной аннотации в UniProt

      Коды экспериментального доказательства функции (Experimental Evidence Codes):
      EXP: Inferred from Experiment 
      IDA: Inferred from Direct Assay 
      IPI: Inferred from Physical Interaction 
      IMP: Inferred from Mutant Phenotype 
      IGI: Inferred from Genetic Interaction 
      IEP: Inferred from Expression Pattern
      
      Для того чтобы определить, сколько из реальных белков таксона Орангутанг (Pongo) аннотированы по всем трем словарям GO и имеют хотя бы один из кодов экспериментального доказательства функции, был составлен следующий запрос:
      ([uniprot-Organism:Pongo*] & ([uniprot-ProteinExistence:1: evidence at protein level*]|
       [uniprot-ProteinExistence:2: evidence at transcript*]) & ([uniprot-DBxref_:EXP*] |
       [uniprot-DBxref_:IDA*] | [uniprot-DBxref_:IPI*] | [uniprot-DBxref_:IMP*] |
       [uniprot-DBxref_:IGI*] | [uniprot-DBxref_:IEP*]))
      
      Ни одного белка найдено не было. Из этого можно сделать вывод, что существование большинства белков в БД UniProt из таксона Pongo еще не доказано экспериментально.
  3. Использование GO для работы с массовыми данными

    1. Получение выборки последовательностей белков с заданной функцией

      Русское название функции: репликация ДНК
      перевод названия на английский: DNA replication
      выбранный термин и его GO ID: DNA replication GO:0006260
      словарь GO: biological process
      запрос к SRS:
      ([uniprot-Organism:pongo*] & [uniprot-DBxref_:GO:0006260*])
      
      количество находок: 23
      Файл с находками в формате .fasta: dna_replication.fasta
    2. Определение главной функции в большом списке белков

      В файле P10902.txt содержится список белков, полученный в результате массового эксперимента (он вклячает в себя также белок NadB_Ecoli). С помощью программы GOstat необходимо определить белки с какой функцией доминируют в этой выборке. Программа была запущена со следующими параметрами:
      Available GO gene-association databases & commonly used gene collections: goa_uniprot; 
      Maximal p-value in GO output list: 0.01.
      
      GO IDТерминОнтологияP-value
      GO:0019674  NAD biosynthetic process biological process 2.26e-09
      GO:0019674  NAD metabolic process biological process2.26e-09
      GO:0019363 pyridine nucleotide biosynthetic processbiological process 3.09e-09
      GO:0006769 nicotinamide metabolic process biological process2.07e-07
      GO:0019362 pyridine nucleotide metabolic process biological process2.07e-07
      GO:0042364 water-soluble vitamin biosynthetic process biological process2.07e-07
      GO:0009110  vitamin biosynthetic process biological process 2.68e-07
      GO:0006733  oxidoreduction coenzyme metabolic process biological process 4.46e-07
      GO:0019363 pyridine nucleotide biosynthetic processbiological process 2.07e-07
      GO:0006767 water-soluble vitamin metabolic processbiological process5.56e-07
      GO:0006766 vitamin metabolic processbiological process 7.07e-07
      GO:0005886 plasma membrane cellular component 8.21e-07
      GO:0006139 nucleobase, nucleoside, nucleotide and nucleic acid metabolic process  biological process3.84e-05
      GO:0009108  coenzyme biosynthetic process biological process 3.84e-05
      GO:0051188  cofactor biosynthetic processbiological process 4.06e-05
      GO:0055086 nucleobase, nucleoside and nucleotide metabolic processbiological process 7.54e-05
      GO:0006732 coenzyme metabolic processbiological process0.000272
      GO:0051186 cofactor metabolic process biological process 0.000322
      GO:0009165 nucleotide biosynthetic processbiological process0.000596
      GO:0009117 nucleotide metabolic processbiological process0.0018
      GO:0008957 phenylacetaldehyde dehydrogenase activitymolecular function0.0082
      Самые представленные в выборке термины GO:0019674 и GO:0019674 (биосинтез и метаболизм NAD), а также GO:0019363 (биосинтез пиридиновых нуклеотидов). В основном функции данных белков связаны с метаболизмом. Основное расположение белков в плазматической мембране. Как видно, у P-value не четко выраженного порогового значения. Доминирующие термины совпадают с терминами, ассоциированными с белком NadB_Ecoli, кроме GO:0005886: NadB_Ecoli расположен в цитоплазме.
       
Меню
· Главная
· Результаты исследований
· Семестры
· Полезные ссылки
· Контакты
© Ирина Поверенная, 2008-2010