Gene Ontology.


  1. Знакомство с терминологией GO

    1. Описание функции белка RIBF_ECOLI в соответствии с GO-аннотацией
    2.   Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где?  Cellular Component  -  -
      Зачем, для чего?  Biological Process  1  Процесс биосинтеза рибофлавина - совокупность химических реакций и путей, приводящих к образованию рибофлавина (витамина B2) - предшественника коферментов флавин нуклеотида и флавин аденин динуклеотида.
      Молекулярный механизм?  Molecular Function  8  1. Трансферазная активность - катализирует перенос группы (метал-, гликозил-, ацил-, фосфорсодержащей) от одного компонента (чаще всего донора) к другому компоненту (акцептору).

      2. Флавин монуклеотид трансферазная активность - катализирует реакцию: АТФ + флавин мононуклеотид = дифосфат + флавин аденин динуклеотид

      3. Рибофлавин киназная активность - катализирует реакцию: АТФ + рибофлавин = АДФ + флавин мононкулеотид

      4. Нуклеотидилтрансферазная активность - катализирует перенос нуклеотидной группы к реагенту.

      5. Каталитическая активность - катализ биохимических реакций при физиологической температуре. В биологически катализируемых реакциях реагенты называются субстратами, катализатором обычно является макромолекулярное вещество, называемое ферментом. Фермент обладает специфическим сайтом связывания с субстратом и обычно состоят большей частью или полностью из белков, но РНК, которая обладает каталитической активностью(рибозимы), также часто относят к ферментам.

      Специфичность?  Molecular Function  3  1. Связывание нуклеотида - выборочное и нековалентное взаимодействие с нуклеотидом, любым компонентом, состоящим из нуклеозида, который эстерефицирован с ортофосфатом или олигофосфатом по гидроксильной группе рибозы или дезоксирибозы.

      2.Связывание с белком: взаимодействие селективно и нековалентно с каким-либо белком или белковым комплексом(комплекс из 2 и более белков, может содержать небелковые молекулы).

      3. АТФ-связывание - выборочное и нековалентное взаимодействие с АТФ, аденозин-5'-трифосфатом; универсальный, важный регулятор кофермента и фермента.

    3. Описание термина GO

    4. Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
       0009231 анаболизм рибофлавина

      биосинтез рибофлавина

      образование рибофлавина

      биосинтез витамина B2

      процесс биосинтеза витамина B2

      биосинтез витамина G

      процесс синтеза витамина G
      GO:0044271 : cellular nitrogen compound biosynthetic process (is a) GO:0042364 : water-soluble vitamin biosynthetic process GO:0044271 : cellular nitrogen compound biosynthetic process - Граф родительских, дочерних терминов и терминов-сибсов

       0003824  ферментативная активность GO:0003674 : molecular_function Граф родительских, дочерних терминов и терминов-сибсов

      GO:0070497 : 6-carboxy-5,6,7,8-tetrahydropterin synthase activity
      GO:0043364 : catalysis of free radical formation (is a)
      GO:0009975 : cyclase activity (is a)
      GO:0019239 : deaminase activity (is a) и далее...
       0003919 аденозин трифосфат-рибофлавин мононуклеотидная трансаделазная активность

      АТФ: ФМН аденилтрансферазная активность

      ФАД дифосфорилазная активность

      ФАД синтетазная активность

      флавин аденин динуклеотид синтетазная активность

      рибофлавин аденин динуклеотид пирофосфорилазная активность

      рибофлавин мононуклеотид аденилтрансферазная активность

      рибофлавин аденин динуклеотид аденилтрансферазная активность
      GO:0070566 : adenylyltransferase activity (is a)  Граф родительских, дочерних терминов и терминов-сибсов

      GO:0016209 : antioxidant activity
      GO:0005488 : binding
      GO:0003824 : catalytic activity
      GO:0016740 : transferase activity
      GO:0016772 : transferase activity, transferring phosphorus-containing groups
      GO:0016779 : nucleotidyltransferase activity
      GO:0070566 : adenylyltransferase activity

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из риса
    2.  
      	Латинское название  - Oryza L. 
      	Английское название - Rice 
      	Русское название    - Рис

      На сайте NCBI в БД Taxonomy определили для Oryza L.

       
      	ранг таксона: 		    род 
      	идентификатор (NCBI_TaxID): 4527.
      

      Изучим в SRS поле ProteinExistence БД UniProt:

       
      	1: evidence at protein level    (Экспериментальные данные о существовании белка)
        	2: evidence at transcript level (Экспериментальные данные о существовании транскрипта, 
      					 существование белка строго не доказано)
        	3: inferred from homology       (Гипотетический белок, предсказан по гомологии)
        	4: predicted                    (Иные предсказанные гипотетические белки)
        	5: uncertain                    (Сомнительное существование белка) 
      

      Соотношение между реальными и гипотетическими белками из Oryza L.(по данным UniProt)

        Количество в UniProt UniProt, %
      Существование белка доказано экспериментально 385 0,26
      Известны только соответствующие транскрипты 16065 10,97
      Гипотетический белок, предсказан по гомологии 9596 6,56
      Иные предсказанные гипотетические белки 120394 82,21

      Соотношение между реальными и гипотетическими белками из Oryza L.(по данным SwissProt)

        Количество в SwissProt SwissProt, %
      Существование белка доказано экспериментально 275 9,2
      Известны только соответствующие транскрипты 2001 66,4
      Гипотетический белок, предсказан по гомологии 724 24,0
      Иные предсказанные гипотетические белки 13 0,4

      Полученные данные показывают, что число белков, существование которых подтверждено экспериментально, незначительно по сравнению с транскриптами или гипотетическими белками, что особенно выражено в БД UniProt, за счет большого количества гипотетических белков, предсказанных без обращения к гомологии. Даже транскриптов известно всего лишь порядка 10%.
      Что касается БД SwissProt, то здесь количество "сомнительных" белков значительно меньше, что и улучшает общие показатели.

    3. Определение качества функциональной аннотации в UniProt
    4.  
      Коды экспериментального доказательства функции: 
       
      	# EXP: Inferred from Experiment
      	# IDA: Inferred from Direct Assay
      	# IPI: Inferred from Physical Interaction
      	# IMP: Inferred from Mutant Phenotype
      	# IGI: Inferred from Genetic Interaction
      	# IEP: Inferred from Expression Pattern 
       
      Taxonomy	Oryza
      ProteinExistence	1: Evidence at protein level
      DBxref_	P:&F:&C:&(EXP:|IDA:|IPI:|IMP:|IGI:|IEP:)
      
      
      С таким запросом SRS не справился. Если искать белки, аннотированные по трем словарям без учета кодов экспериментального доказательства, SRS снова зависает и запрос не может быть обработан. Когда ограничение по словарям было снято, нашлось 53 белка. Среди них были и проаннотированные по всем трем словарям GO - 30 белков. Таким образом, чуть больше половины белков, чье существование было доказано экспериментально, на данный момент изучены полностью (т.е. проаннотированы по всем трем словарям GO).
      Такое небольшое количество аннотированых по трем онтологиям белков с подтвержденной экспериментально функцией(< 8% ), вероятно, связано с недостаточной изученностью белков и временными затратами на экспериментальные подтверждения.
  3. Использование GO для работы с массовыми данными

    1. Получение выборки последовательностей белков с заданной функцией

      Русское название функции: репликация ДНК
      перевод названия на английский: DNA replication
      выбранный термин и его GO ID: DNA replication GO:0006260
      словарь GO: biological process
      запрос к SRS:
      ([swissprot-Organism:Oryza*] &  [swissprot-DBxref_:GO:0006260*]) 
      

      Количество находок: 26
      Файл с находками в формате fasta: dna_replication.fasta

    2. Определение главной функции в большом списке белков
    3. В файле P0AG40.txt содержится список белков, полученный в результате массового эксперимента (он вклячает в себя также белок RIBF_ECOLI). С помощью программы GOstat необходимо определить белки с какой функцией доминируют в этой выборке. Программа была запущена со следующими параметрами:
       
      Available GO gene-association databases & commonly used gene collections: goa_uniprot; 
      Maximal p-value in GO output list: 0.01.
      
      В результате получается следующая таблица:
      Best GOs	P-Value
      GO:0009231      4.39e-10
      GO:0042726      4.39e-10
      GO:0042727      4.39e-10
      GO:0006771	4.39e-10
      GO:0042364	3.19e-05
      GO:0009110	3.61e-05
      GO:0006767	6.43e-05
      GO:0006766	7.27e-05
      

      Чем меньше P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов.

      GO ID Term Ontology Definition P-value
      0009231 riboflavin biosynthetic process biological process Процесс биосинтеза рибофлавина - совокупность химических реакций и путей, приводящих к образованию рибофлавина (витамина B2) - предшественника коферментов флавин нуклеотида и флавин аденин динуклеотида. 4.39e-10
      0042726 riboflavin and derivative metabolic process biological process Химические реакции и пути, вовлекающие рибофлавин (витамин B2) или любые его производные. 4.39e-10
      0042727 riboflavin and derivative biosynthetic process biological process Химические реакции и пути с участием никотинамид-аденин-динуклеотида(NAD), кофермента, присутствующего в большинстве живых клеток, образованного из витамин В никотиновой кислоты 9.13e-07
      0006771 pyridine nucleotide biosynthetic process biological process Химические реакции и пути, в результате которых формируется рибофлавин или его производные. 4.39e-10
      0042364 water-soluble vitamin biosynthetic process biological process Химические реакции и пути, приводящие к образованию различных групп витаминов, способных раствориться в воде. 4.39e-10
      0006769 nicotinamide metabolic process biological process Химические реакции и пути с участием никотинамида, пиридин-3-карбоксиамида, амида никотиновой кислоты. Является частью В комплекса витаминов, широко распростанен в живых организмах 3.19e-05
      0009110 vitamin biosynthetic process biological process Химические реакции и пути, приводящие к образованию витаминов. 3.61e-05
      0006766 vitamin metabolic process biological process Химические реакции и пути, вовлекающие витамины. 7.27e-05
      0006767 vitamin metabolic process biological process Химические реакции и пути, вовлекающие витамины. 6.43e-05


      Как видно, у P-value не четко выраженного порогового значения. Доминирующие термины совпадают с терминами, ассоциированными с белком RIBF_ECOLI.



      На страничку с результатами 4 семестра.
      На главную страничку.