1. Знакомство с терминологией GO

1. Описание функции белка с помощью аннотации Gene Ontology

Описание функции белка UXAC_ECOLI в соответствии с GO-аннотацией (UniProt >> QuickGO EBI)

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO
Где? Cellular Component 0  
Зачем, для чего? Biological Process 3 Катаболический процесс глюкуронатов (солей и эфиров глюкуроновой кислоты, образующейся из D-глюкозы при окислении ее первичной гидроксильной группы и являющейся в биосинтезе предшественником аскорбиновой кислоты),
D-глюкуронатов,
D-галактуронатов (солей и эфиров D-галактуроновой кислоты, образующейся в организмах оксилением первичного гидролаза галактозы до карбоксильной группы).
Молекулярный механизм? Molecular Function; 2 Изомеразная активность и изомеразная активность глюкуронатов.
Специфичность? Molecular Function 0  

2. Описание термина GO

Выберем 3 наиболее содержательных термина GO, ассоциированных с изучаемым белком:
1. glucuronate catabolic process (словарь Biological Process)
2. isomerase activity (словарь Molecular Function)
3. glucuronate isomerase activity (словарь Molecular Function)
Проведем поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology.

Описание терминов GO

GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0006064 1. распад глюкуронатов
2. катаболизм глюкуронатов
3. деградация глюкуронатов
1. GO:0019585 : метаболизм глюкуронатов (связь "is a" - катаболизм является частным случаем метаболизма)
2. GO:0046395 : катаболизм карбоновых кислот (связь "is a" - катаболизм глюкуронатов является частным случаем катаболизма карбоновых кислот)
1. GO:0042840 : катаболизм D-глюкуронатов (связь "is a")
2.GO:0019640 : катаболизм глюкуронатов до ксилоза-5-фосфатов (связь "is a")
GO:0016853 другая изомеразная активность GO:0003824 : каталититическая активность
(связь "is a" - изомеразная активность является частным случаем каталитической)
1. GO:0016859 : цис-транс изомеразная активность (связь "is a")
2. GO:0016860 : внутримолекулярная оксиредуктазная активность (связь "is a")
3. GO:0016866 : внутримолекулярная трансферазная активность (связь "is a")
GO:0008880 1. альдозо-кетозо-изомеразная активность D-глюкуронатов 2. изомеразная активность D-глюкуронатов 3. кетол-изомеразная активность D-глюкуронатов 4. уронатная изомеразная активность 5. изомеразная активность уроновых кислот 6. уроновая изомеразная активность GO:0016861 : внутримолекулярная оксидоредуктазная активность, превращения альдоз и кетоз (связь "is a") Дочерних терминов нет
Графы родительских, дочерних терминов и терминов-сибсов для:
1.glucuronate catabolic process
2.isomerase activity
3.glucuronate isomerase activity

2. Оценка качества функциональной аннотации белков в UniProt

1. Определение числа реальных и гипотетических белков из орангутанга

Названия заданного таксона - Pongo (лат.) / Orangutans (англ.) / Орангутаны (рус.), ранг таксона - род, идентификатор (NCBI_TaxID) - 9599.

Поле ProteinExistence БД UniProt в SRS проиндексировано следующим образом:
1 - evidence at protein level (cуществование белка доказано экспериментально)
2 - evidence at transcript level (существование белка доказано на уровне соответствующих ему транскриптов)
3 - inferred from homology (предсказан по гомологии)
4 - predicted (предсказан другими способами)
5 - uncertain (существование белка не доказано)

Соотношение между реальными и гипотетическими белками из Pongo (по данным UniProt)

  Количество в UniProt
Существование белка доказано экспериментально 9
Известны только соответствующие транскрипты 3776
Гипотетический белок, предсказан по гомологии 518
Иные предсказанные гипотетические белки 830

Экспериментально доказано существование крайне малого количества белков из орангутанов (меньше 1%), для подавляющего количества белков известны только соответствующие транскрипты, также существование многих белков предсказано гипотетически (по гомологии либо иными способами). Результат оказался предсказуемым, учитывая сложность доказательства существования белка экспериментальми методами, а также то, что орангутанг - крайне редкий объект лабороторных исследований, но все же было довольно неожиданным то, что экспериментально доказано существование всего десятка белков из более чем 5000 имеющихся в БД UniProt!

2. Определение качества функциональной аннотации в UniProt

Определим с помощью одного запроса к SRS, сколько из реальных белков таксона Pongo аннотированы по всем трем словарям GO и имеют хотя бы один из кодов экспериментального доказательства функции:
EXP: Inferred from Experiment 
IDA: Inferred from Direct Assay 
IPI: Inferred from Physical Interaction 
IMP: Inferred from Mutant Phenotype 
IGI: Inferred from Genetic Interaction 
IEP: Inferred from Expression PatternБ
Для этого используем такой запрос:
(([swissprot-Taxonomy:Pongo*] & [swissprot-ProteinExistence:1:*]) & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))
По данному запросу не было найдено ни одной последовательности, это связано с тем, что в UniProt очень мало экспериментально полученных белков (например для Pongo всего 9), а тем более аннотированных по всем трем словарям GO (т.е. хорошо изученных).

3. Использование GO для работы с массовыми данными

1. Получение выборки последовательностей белков с заданной функцией

Был проведен поиск термина "Биосинтез пиримидинов" (англ. - pyrimidine biosynthetic process) среди всех терминов GO на сайте консорциума Gene Ontology.
Из полученных результатов поиска мною был выбран термин GO:0019856 : pyrimidine base biosynthetic process (биосинтез пиримидиновых оснований), относящийся к словарю biological process.
Далее был сформирован запрос к SRS для поиска всех белков из таксона Pongo с идентификатором GO:0019856 :
([uniprot-Organism:Pongo*] &  [uniprot-DBxref_:GO:0019856*])
по которому не было найдено не одной последовательности. Запросы с идентификаторами GO:0006221 : pyrimidine nucleotide biosynthetic process и GO:0009130 : pyrimidine nucleoside monophosphate biosynthetic process также не дали никаких результатов.

2. Определение главной функции в большом списке белков

Мне был дан текстовый файл со списком белков, полученный в результате массового эксперимента. Для определения доминирующих белков в этом списке воспользуемся программой GOstat.

Результат: ниже будут представлены 3 самых перепредставленных в выборке термина GO (c P-value = 0), относящихся к доминирующим белкам; следом за ними наблюдался скачок P-value (следующее значение - 3.04e-25, после этого значения P-value плавно возрастало).
1. GO:0005886 - plasma membrane (словарь cellular component)
2. GO:0016853 - isomerase activity (словарь molecular function) - только этот термин из 3х представленных ассоциирован с изучаемым белком (UXAC_ECOLI)
3. GO:0005515 - protein binding (словарь molecular function)

Итого: в выборке доминируют белки с изомеразной активностью и функцией связывания с белками, а также белки плазматической мембраны. Неудивительно, что эти функции оказались доминирующими, т.к. они очень объемные и включают в себя множество подфункций.
Данные термины совпадают с терминами изучаемого мной белка (см. зад. 1.1) наличием термина "изомеразная активность".
Назад