Учебный сайт
Главная Семестры Проекты Обо мне

Терминология GO

По ссылке "Complete GO annotation..." на странице UniProt с описанием белка 6PGD_ECOLI была открыта страница браузера QuickGO EBI. По информации, предоставленной на ней, была заполнена таблица:

Описание функции белка 6PGD_ECOLI в соответствии с GO-аннотацией

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO
Зачем, для чего? Biological process 4 Метаболические пути и окислительно-восстановительные процессы: пентозофосфатный путь, D-глюконат метаболический путь:
окислительно-восстановительный процесс перевода гексоз в пентозы, а также основной источник восстанавливающих эквивалентов (NADPH);
Молекулярный механизм? Molecular Function 7 Фосфоглюконатдегидрогеназная (декарбоксилирующая) активность (окислительно-восстановительная активность):
Акцептор - NADP+
Донор - CH-OH группа 6-фосфо-D-глюконата
связывание с белками, с NADP или NADPH
Специфичность? Molecular Function 7 Фосфоглюконатдегидрогеназа
Терминов из словаря Cellular Component указано не было

Описание термина GO

Среди терминов, указанных в аннотации белка 6PGD_ECOLI, были выбраны 2, по одному из каждого словаря.

Описание терминов GO

GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0004616 6-phospho-D-gluconate dehydrogenase activity
6-phospho-D-gluconate:NADP+ 2-oxidoreductase (decarboxylating)
6-phosphogluconate dehydrogenase (decarboxylating)
6-phosphogluconic carboxylase activity
6PGD activity
phosphogluconic acid dehydrogenase activity
GO:0016616 : окислительновосстановительная активность, донорами выступают СH-OH группы, NAD или NADP - акцептор, связь is_a дочерних терминов нет
GO:0006098 hexose monophosphate pathway
pentose phosphate pathway
pentose phosphate shunt
pentose-phosphate pathway
GO:0006740 : регенерация NADPH, связь is_a
GO:0006007 : катаболизм глюкозы, связь is_a
GO:0009052 : пентозофосфатный путь, неокислительная ветвь, связь is_part_of
GO:0009051 : пентозофосфатный путь, окислительная ветвь, связь is_part_of
GO:0043456 : регуляция пентозофосфатного пути, связь regulates
Граф родительских, дочерних терминов и терминов-сибсов для GO:0004616: посмотреть
Граф родительских, дочерних терминов и терминов-сибсов для GO:0006098: посмотреть

Качество функциональной аннотации белков в UniProt

Оценка проводилась на основе данных по белкам коровы.
Краткое описание таксона:
Русское название:     Корова
Английское название:  Cattle
Латинское название:   Bos taurus
Ранг:                 Вид
NCBI_TaxID:           9913
Перед поиском белков было изучено поле ProteinExistence БД UniProt. Ему соответствуют 5 значений:
  1: evidence at protein level		свидетельство на белковом уровне
  2: evidence at transcript level	свидетельство на уровне транскрипта
  3: inferred from homology 		вывод сделан на осовании гомологии
  4: predicted 				предсказание
  5: uncertain 				неясно

Соотношение между реальными и гипотетическими белками из организма Bos Taurus (корова)(по данным UniProt)

  Количество в UniProt
Существование белка доказано экспериментально 1351
Известны только соответствующие транскрипты 11846
Гипотетический белок, предсказан по гомологии 876
Иные предсказанные гипотетические белки 1514
По данным таблицы была построена диаграмма:

Как видно из диаграммы, большую часть белков представляют собой записи с известными транскриптами, в то время как реально существующие белки по количеству примерно совпадают с сомнительными предсказаниями.

Также был проведена оценка по SwissProt.

Соотношение между реальными и гипотетическими белками из организма Bos Taurus (корова)(по данным SwissProt)

  Количество в SwissProt
Существование белка доказано экспериментально 1057
Известны только соответствующие транскрипты 4352
Гипотетический белок, предсказан по гомологии 329
Иные предсказанные гипотетические белки 15
Большую часть записей в SwissProt составляют белки с доказательством в эксперименте или на уровне транскрипта (по сравнению с UniProt увеличена доля белков с экспериментальным доказательством, доля белков с доказательством на уровне транскрипта осталась почти такой же), это подтвержает то, что база SwissProt хорошо проверяется и содержит большей частью белки, для которых есть подтверждение существования, подробная аннотация.

Качество функциональной аннотации в SwissProt

В SRS был создан запрос по реальным белкам из таксона Bos taurus (ID в NCBI 9913), аннотированным по всем трем словарям GO, у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции. (поиск был проведен по swissprot)
Текст запроса:
(([swissprot-NCBI_TaxId:9913*] & [swissprot-ProteinExistence:1:*]) & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))

В результате в SwissProt было найдено 99 записей, что, по сравнению с 1057 записями по запросу из предыдущего задания, является маленьким значением.
В данном запросе учитывался критерий как "реальности в SwissProt", так и в GO. Если из запроса исключить одно из условий (1: evidence at protein level или EXP|IDA|IPI|IMP|IGI|IEP), то результаты следующие:

(([swissprot-NCBI_TaxId:9913*] & [swissprot-ProteinExistence:1:*]) & ((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]))
618 результатов

([swissprot-NCBI_TaxId:9913*] & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))
123 результата

Таким образом, половина из реальных белков коровы имеет аннотацию по всем словарям GO. Число белков коровы, имеющих код экспериментального доказательства функции согласно данным GO, мало и близко по значению к результату первого запроса. Можно предположить, что наличие экспериментального доказательства функции в GO часто подразумевает подробную аннотацию по всем 3 словарям.

Процент реальных белков с описанием функции в SwissProt очень мал, что подтверждает медленную скорость экспериментального подтверждения существования белков.

GO в работе с массовыми данными

Выборка последовательностей белков с заданной функцией

Заданная функция: Биосинтез пуринов
Функция по-английски: Purine biosynthesis
По базе GO был произведен поиск терминов по запросу purine biosynthesis. Было найдено 20 результатов, среди которых для дальнейшего поиска был выбран термин GO:0009113, биосинтез пуриновых оснований, словарь Biological Process.
В SRS был создан запрос по белкам из таксона Bos taurus с GO:0009113.
Текст запроса: (([goa-GOID:0009113*] & [goa-taxon:9913*]) >  UNIPROT )
Всего находок: 7
Результат в fasta формате сохранен здесь  

Определение главной функции в большом списке белков

C помощью программы GOstat было определено, белки с какими функциями доминируют в списке P00350.
Лучшие находки (низкий P-value):
GOID		NAME					ONTOLOGY		P-VALUE
GO:0005886	plasma membrane				cellular component	4.15e-28
		плазматическая мембрана
GO:0019520	aldonic acid metabolic process		biological process	8.94e-22
		метаболизм альдоновой кислоты
GO:0019521	D-gluconate metabolic process		biological process	8.94e-22
		метаболизм D-глюконата
В последующих находках P-value возрастает примерно на 8 порядков, что может свидетельствовать о пороговом значении вероятности того, что частота термина GO близка к его частоте в случайной выборке терминов.
По 3 находкам сложно судить по общей функции выборки, тогда обратимся к тем, что имеют более высокое P-value:
GO:0005975	carbohydrate metabolic process		biological process	5.38e-14
		метаболизм углеводов
GO:0044262	cellular carbohydrate metabolic process	biological process	8.33e-13
		метаболизм клеточных углеводов
GO:0006740	NADPH regeneration			biological process	2.79e-12
		регенерация NADPH
GO:0006098	pentose-phosphate shunt			biological process	2.79e-12
		пентозофосфатный путь
GO:0006739	NADP metabolic process			biological process	3.58e-12
		метаболизм NADP
GO:0005515	protein binding				molecular function	1.51e-11
		связывание с белком
GO:0006733	oxidoreduction coenzyme metabolic	biological process	2.2e-10
		process
		метаболизм RedOx коэнзима
Ко всем этим терминам относится белок 6PGD_ECOLI (кроме первого, однако первая находка из словаря С, а для 6PGD_ECOLI термины из этого словаря не описаны вообще). Все эти термины (из словаря P) объединены общей функцией: обмен углеводов (альдоновая кислота, глюконаты, NADPH, который участвует в RedOx реакциях углеводов).

© Яшина 2009