Занятие 7.

I. Знакомство с терминологией GO

1. Описание функции белка с помощью аннотации Gene Ontology

Описание функции белка OTC1_ECOLI в соответствии с GO-аннотацией

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO
Где? Cellular Component 2 1) Цитоплазма (все содержимое клетки, за исключением плазматической мембраны и ядра);
2) Орнитинкарбамоилтрансферазный комплекс (гомотримерный белковый комплекс, который катализирует реакцию превращения карбамоил-группы в орнитин, приводящую к образованию цитруллина).
Зачем, для чего? Biological Process 3 1) Клеточный биосинтез аминокислот (химические реакции, приводящие к образованию аминокислот - органических кислот, содержащих одну или несколько аминогрупп);
2) Клеточный метаболизм аминокислот (химические реакции с участием аминокислот);
3) Биосинтез аргинина (химические реакции, приводящие к образованию аргинина - 2-амино-5-(карбамимидамидо)пентановой кислоты).
Молекулярный механизм? Molecular Function 3 1) Трансферазная активность (катализ переноса группы, например, метильной, гликозильной, ацильной, фосфосодержащей или другой, с одного компонента (обычно рассматривается как донор) на другой (акцептор));
2) Орнитинкарбамоилтрансферазная активность (катализ реакции образования L-цитруллина и фосфата из карбамоилфосфата и L-орнитина);
3) Карбоксил- или карбамоилтрансферазная активность (катализ переноса карбоксильной или карбамоил-группы от донора к акцептору).
Специфичность? Molecular Function 1 1) Связывание с аминокислотой (селективное нековалентное взаимодействие с аминокислотой).

2. Описание термина GO

Было выбрано по одному термину из каждого словаря GO. Затем был проведен поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Для каждого термина было определено, есть ли точные синонимы, какие термины являются родительскими, а какие - дочерними, а также типы связей между ними. Результаты представлены в таблице ниже.

Описание терминов GO

GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0006526
arginine biosynthetic process (биосинтез аргинина)
arginine anabolism (анаболизм аргинина);
arginine biosynthesis (биосинтез аргинина);
arginine formation (образование аргинина);
arginine synthesis (синтез аргинина)
GO:0009084
glutamine family amino acid biosynthetic process (биосинтез аминокислот, принадлежащих к семейству глутамина), тип связи is a;
GO:0006525
arginine metabolic process (метаболизм аргинина), тип связи is a.

GO:0042450
arginine biosynthetic process via ornithine (биосинтез аргинина из орнитина), тип связи is a.
GO:0016743
carboxyl- or carbamoyltransferase activity (карбоксил- или карбамоилтрансферазная активность)
carboxyl- and carbamoyltransferase activity (карбоксил- и карбамоилтрансферазная активность) GO:0016741
transferase activity, transferring one-carbon groups (трансферазная активность, перенос моноуглеродных групп, тип связи is a.
GO:0047155
3-hydroxymethylcephem carbamoyltransferase activity (3-гидроксиметилцефем-карбамоилтрансферазная активность), тип связи is a;
GO:0004070
aspartate carbamoyltransferase activity (аспартаткарбамоилтрансферазная активность), тип связи is a;
GO:0050068
lysine carbamoyltransferase activity (лизинкарбамоилтрансферазная активность), тип связи is a;
GO:0047154
methylmalonyl-CoA carboxytransferase activity (метилмалонил-CoA-карбокситрансферазная активность), тип связи is a;
GO:0043857
N-acetylornithine carbamoyltransferase activity (N-ацетилорнитинкарбамоил-трансферазная активность), тип связи is a;
GO:0004585
ornithine carbamoyltransferase activity (орнитинкарбамоилтрансферазная активность), тип связи is a;
GO:0050205
oxamate carbamoyltransferase activity (оксаматкарбамоилтрансферазная активность), тип связи is a;
GO:0050231
putrescine carbamoyltransferase activity (путресцинкарбамоилтрансферазная активность), тип связи is a.
GO:0009348
ornithine carbamoyltransferase complex (орнитинкарбамоил-трансферазный комплекс)
нет GO:0044444
cytoplasmic part (цитоплазматическая часть), тип связи is a;
GO:0043234
protein complex (белковый комплекс), тип связи is a.
нет

Файлы с изображениями графов родительских, дочерних терминов и терминов-сибсов:
0006526.png
0016743.png
0009348_1.png (без терминов-сибсов) и 0009348_2.png (этот граф содержит сибсы только для одного из родителей рассматриваемого термина - цитоплазматической части, поскольку всего сибсов слишком много).

II. Оценка качества функциональной аннотации белков в UniProt

1. Определение числа реальных и гипотетических белков риса

Краткое описание таксона:
русское название: Рис;
английское название: Rice;
латинское название: Oryza;
ранг таксона: род;
NCBI_TaxID: 4527.

Далее рассмотрим поле ProteinExistence в БД UniProt в SRS. Это поле было в последний раз проиндексировано 23 марта 2010 г. и может принимать следующие значения:
1: Evidence at protein level (существование белка доказано экспериментально)
2: Evidence at transcript level (известен только соответствующий транскрипт)
3: Inferred from homology (предсказан по гомологии)
4: Predicted (гипотетический)
5: Uncertain (существование белка под сомнением).


Соотношение между реальными и гипотетическими белками из Oryza sp.(по данным UniProt)

  Количество в UniProt Количество в UniRef100
Существование белка доказано экспериментально 385 1055
Известны только соответствующие транскрипты 16063 14907
Гипотетический белок, предсказан по гомологии 9594 8336
Иные предсказанные гипотетические белки 120372 110239

Как и ожидалось, экспериментально подтверждено очень малое количество белков (меньше процента!). Существование транскриптов доказано для довольно многих. Среди огромного количества предсказанных белков по гомологии предсказана лишь небольшая часть.
При рассмотрении соответствия с UniRef100 выяснилось, что для белков, чье существование доказано экспериментально, число записей в UniRef100 больше числа записей в UniProt. Это произошло потому, что в UniRef100 для одного белка может находиться сразу несколько записей, которые ссылаются на старые AC UniProt.

Теперь рассмотрим соотношение между реальными и гипотетическими белками риса при поиске по Swiss-Prot:
  Количество в Swiss-Prot Количество в UniRef100
Существование белка доказано экспериментально 275 945
Известны только соответствующие транскрипты 2001 1907
Гипотетический белок, предсказан по гомологии 724 1604
Иные предсказанные гипотетические белки 13 20

Поскольку Swiss-Prot - курируемая БД, большая часть гипотетических и предсказанных белков отсеивается. Тем не менее, предсказанных по гомологии белков остается достаточно много по отношению к общему количеству белков, а число белков, для которых известны транскрипты, все же значительно превышает число экспериментально подтвержденных белков.

2. Определение качества функциональной аннотации в UniProt

C помощью одного запроса к SRS определим, сколько из реальных белков Oryza sp. аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции.
Коды экспериментального доказательства функции GO выглядят так:
Inferred from Experiment (EXP) - получено из эксперимента,
Inferred from Direct Assay (IDA) - из прямого анализа,
Inferred from Physical Interaction (IPI) - из физического взаимодействия,
Inferred from Mutant Phenotype (IMP) - из фенотипа мутанта,
Inferred from Genetic Interaction (IGI) - из генетического взаимодействия,
Inferred from Expression Pattern (IEP) - из модели экспрессии.

Запрос был составлен следующим образом:

TaxonomyOryza
ProteinExistence1: Evidence at protein level
DBxref_P:&F:&C:&(EXP:|IDA:|IPI:|IMP:|IGI:|IEP:)


С таким запросом SRS не справился. Если искать белки, аннотированные по трем словарям без учета кодов экспериментального доказательства, SRS снова зависает и запрос не может быть обработан. Когда ограничение по словарям было снято, нашлось 53 белка. Среди них были и проаннотированные по всем трем словарям GO - 30 белков. Таким образом, чуть больше половины белков, чье существование было доказано экспериментально, на данный момент изучены полностью (т.е. проаннотированы по всем трем словарям GO).

III. Использование GO для работы с массовыми данными

1. Получение выборки последовательностей белков с заданной функцией

Необходимо найти все белки риса, участвующие в биосинтезе пуринов. Для этого определим наиболее подходящий термин GO, выполнив поиск на сайте консорциума GO. По запросу "purine biosynthesis" было найдено несколько терминов, таких как "биосинтез пуриновых оснований", "биосинтез пуриновых нуклеотидов", "биосинтез пуриновых нуклеозидов" и т.д. Все они принадлежат к словарю Biological Process. Был выбран термин GO:0009113 - биосинтез пуриновых оснований (purine base biosynthesis).
Для поиска по SRS был составлен следующий запрос:

TaxonomyOryza
DBxref_GO:0009113

Было найдено 14 белков. Их последовательности сохранены в fasta-формате в файле purine.fasta

2. Определение главной функции в большом списке белков

Имеется список белков, полученный в результате массового эксперимента. Задача - определить, белки с какими функциями доминируют в этом списке. Для этого используем программу GOstat. При подсчете рассматривалась БД goa_uniprot, максимальное значение P-value 0,01.
Для определения скачка P-value был построен график его десятичного логарифма:

Доверять можно терминам, расположенным до скачка. Все они относятся к словарю Biological Process. Рассмотрим эти термины подробнее.
GO:0006526 - биосинтез аргинина (arginine biosynthetic process),
GO:0006525 - метаболизм аргинина (arginine metabolic process),
GO:0009084 - биосинтез аминокислот из семейства глутамина (glutamine family amino acid biosynthetic process). Аргинин относится к этому семейству.
Термин GO:0000051, охарактеризованный в GOstat как метаболизм интермедиата в цикле образования мочевины (urea cycle intermediate metabolic process) в настоящее время отсутствует в GO. Тем не менее, при поиске среди терминов GO по запросу "urea cycle intermediate" обнаружился GO:0070408 - метаболизм карбамоилфосфата (carbamoyl phosphate metabolic process), являющегося как раз интермедиатом в орнитиновом цикле (цикле образования мочевины). Исследуемый мной белок OTC1_ECOLI участвует в метаболизме карбамоилфосфата, а именно катализирует реакцию образования L-цитруллина и фосфата из карбамоилфосфата и L-орнитина. Эта реакция представляет собой один из этапов биосинтеза аргинина, который, в свою очередь, является одним из доминирующих терминов в данной выборке. Однако термин "carbamoyl phosphate metabolic process" ни с OTC1_ECOLI, ни с остальными белками из рассматриваемой выборки, не ассоциирован. Кроме того, он вообще никак не связан с термином "arginine biosynthetic process" в GO.

По результатам подсчета GOstat можно сказать, что в изучаемой выборке доминируют белки, участвующие в биосинтезе аргинина и других аминокислот глутаминового семейства, а также связанные с метаболизмом аргинина. С заданным белком OTC1_ECOLI, по данным GOstat, ассоциированы все термины из числа самых перепредставленных. Если же рассматривать данные из QuickGO EBI, этому белку приписан только термин GO:0006526 - биосинтез аргинина. Впрочем, этот термин является дочерним для двух оставшихся с типом связи is a, то есть является их частью:

Таким образом, большая часть белков из выборки и заданный белок участвуют в схожих биологических процессах.

Назад