Учебный сайт Шиндяпиной А.В.

Функции. Онтологии базы данных GO.


I.Знакомство с терминологией GO

1. Описание функции белка с помощью аннотации Gene Ontology.

Перейдя по ссылке "Complete GO annotation..."со страницы моего белка в БД UniProt на страницу браузера QuickGO EBI, по полученным данным описала функцию белка, заполнив таблицу ниже.

Описание функции белка DDLB_Ecoli в соответствии с GO-аннотацией

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
(краткое описание, близкое к тексту определения термина(ов) GO
Где? Cellular Component - C 2 1. Клеточная стенка (GO:0005618). Жесткая или получжесткая оболочка, расположенная снаружи от мембраны у растений, грибов, большинства прокариотических клеток. Поддерживает их форму и защищает от осмотического лизиса. В растениях она состоит из целлюлозы и, часто, лигнина; у бактерий - в подавлющем большинстве из полисахаридов; у бактерий - из пептидогликанов.
2. Цитоплазма (GO:0005737). Все составляющие компоненты клетки, за исключением плазматической мембраны и ядра, но включая различные органеллы.
Зачем, для чего? Biological Process - P 3 1. Реакции синтеза пептидогликанов (GO:0009252). Химические реакции, результатом которых является синтез пептидогликанов, относящихся к классу гликоконъюгатов и найденных в клеточной стенке бактерий.
2. Сборка клеточной стенки (GO:0007047). Процесс, проходящий на клеточном уровне и результатом которого является сборка, упорядочевание составных частей, или разрушение клеточной стенки, которая раполагается поверх клеточной мембраны у растений, грибов и большинства прокариотических клеток, придает им форму и уберегает от осмотического лизиса.
3. Регуляция сохранения клетками формы (GO:0008360). Любые процессы, модулирующие конфигурацию внешних оболочек клеток.
Молекулярный механизм? Molecular Function - F 3 1.Каталитическая активность(GO:0003824). Катализ биохимических реакций при физиологических температурах. В катализе биологических реакций участвует реактант т.н.субстрат и катализатор чаще всего представленный макромолекулярное вещество, называемое ферментом. Ферменты имеет специфический сайт связывания для субстрата.
2. Лигазная активность D-alanine-D-alanine (GO:0008716). Катализ реакции: ATФ + 2 D-alanine = АДФ + фосфат + D-alanyl-D-alanine.
3. Связывание АТФ (GO:0005524). Селективное и нековалентное взаимодействие с АТФ.
Специфичность? Molecular Function - F 2 1. Нековалентное специфическое связывание АТФ(GO:0005524).
2. Связывание 2 D-alanine (GO:0008716).


И так, основная функция белка - это АТФ-зависимый катализ реакции образования из 2 D-ALA одной молекулы D-аланил-D-аланина, необходимой для синтеза пептидогликанов => сборки клеточной стенки; реакция происходит в цитоплазме.

2.Описание термина GO.

Выбрав три, по моему усмотрению, самых содержательных термина GO провела поиск их описаний на сайте консорциума Gene Ontology. Результаты записала в таблицу ниже.

Описание терминов GO

GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0009252 (P) murein biosynthesis
murein biosynthetic process
peptidoglycan anabolism
peptidoglycan biosynthesis
peptidoglycan formation
peptidoglycan synthesis
GO:0009285
GO:0009273 : peptidoglycan-based cell wall biogenesis (основанный на пептигликанах биогенез клеточной стенки).
Тип связи "part of";
GO:0000270 : peptidoglycan metabolic process (обменный процесс пептидогликанов).
Тип связи "is a";
GO:0006024 : glycosaminoglycan biosynthetic process (биосинтез гликозаминогликанов).
Тип связи "is a";
GO:0018104 : peptidoglycan-protein cross-linking (сшивка пептидогликанов с пептидами).
тип связи - "is a";
ссылка на изображение графа - GO:0009252
GO:0005737 (С) нет GO:0044424 : intracellular part (внутриклеточная часть), тип связи - "is a" GO:0016528 : sarcoplasm (саркоплазма), тип связи - "is a";
GO:0045495 : pole plasm (полюсная плазма) , тип связи - "is a";
GO:0044444 : cytoplasmic part (цитоплзматическая часть), тип связи - "part of";
ссылка на изображение графа - GO:0005737
GO:0008716 (F) alanine:alanine ligase (ADP-forming) activity
alanylalanine synthetase activity
D-Ala-D-Ala synthetase activity
D-alanine:D-alanine ligase (ADP-forming)
D-alanyl-D-alanine synthetase activity
D-alanylalanine synthetase activity
GO:0016881 : acid-amino acid ligase activity (аминокислотная лигазная активность)
Тип связи - "is a"
ссылка на изображение графа - GO:0008716
нет
Вид связи "is a" - "A is B" означает, что А частный случай В. Связь "is part of" - "A is part of B" означает, что А является частью В, но В не обязательно содержит А.

II. Оценка качества функциональной аннотации белков в UniProt.

1.Определение числа реальных и гипотетических белков.

В качестве объекта изучения мне был предложен таксон Рис.
Латинское название - Oryza;
Английское название - Rise;
Ранк - genus;
ID таксона - 39947 Для выполнения работы для начала выяснила как проиндексировано поле ProteinExistence БД UniProt ( дословно - существование белка). Было найдено для него следующие 5 ключей:
1: evidence at protein level - существование белка доказано экспериментально;
2: evidence at transcript level - найдены транскрипты белка;
3: inferred from homology - определен по гомологии;
4: predicted - иные предсказания существования белка (гипотетические белки);
5: uncertain - существование белка никак не доказано.

Соотношение между реальными и гипотетическими белками из Oryza(по данным UniProt)

  Количество в UniProt
Существование белка доказано экспериментально 842
Известны только соответствующие транскрипты 32320
Гипотетический белок, предсказан по гомологии 27562
Иные предсказанные гипотетические белки 284452
Достаточно предсказуемо для такого количества белков в организме, что число белков, существование которых экспериментально доказано, будет намного меньше числа гипотетических белков (из них меньшее количество предсказано по гомологии). Чуть для большего числа белков, чем для предсказанных по гомологии, найдены транскрипты

Определение качества функциональной аннотации в UniProt.

Нужно было определить с помощью одного запроса к SRS, сколько из реальных белков (1: evidence at protein level) заданного таксон (Oryzo) а аннотированы по всем трем словарям GO (P, F, C) и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции
Experimental Evidence Codes
EXP: Inferred from Experiment
IDA: Inferred from Direct Assay
IPI: Inferred from Physical Interaction
IMP: Inferred from Mutant Phenotype
IGI: Inferred from Genetic Interaction
IEP: Inferred from Expression Pattern

Получила следующий запрос в SRS:

(([uniprot-ProteinExistence:*1:*] & [uniprot-Taxonomy:Oryza*]) & (((([uniprot-DBxref_:*GO*] & [uniprot-DBxref_:*P:*]) & [uniprot-DBxref_:*F:*]) & [uniprot-DBxref_:*C:*]) & ((((([uniprot-DBxref_:EXP:*] | [uniprot-DBxref_:IDA:*]) | [uniprot-DBxref_:IPI:*]) | [uniprot-DBxref_:IMP:*]) | [uniprot-DBxref_:IGI:*]) | [uniprot-DBxref_:IEP:*])))

Результат поиска - 30 белков, т.е. только об этих белках из данного таксона мы имеем достоверные знания. Учитывая, что белков данного таксона в UniProt в общей сложности 172600, а белков чье существование доказано экспериментально - 421, эта цифра очень мала.

III. Использование GO для работы с массовыми данными.

1. Получение выборки последовательностей белков с заданной функцией.

Для выполнения задания мне была предложена функция фосфорилирование ( phosphorylation ). Наиболее подходящий GO идентификатор - GO:0016310, biological process (P). Для поиска всех белков с данной функцией по таксону Oryza создала в SRS следующий запрос:
([uniprot-Organism:Oryza*] & ([uniprot-DBxref:GO:0016310*] > parent ))
Последовательности найденных белков в фаста-формате сохранила в файл go0016310.fasta .
Результат поиска по БД UniProt - 69 белков ( из них существование только 1 подтверждено экспериментально...)

2. Определение главной функции в большом списке белков.

Для этого воспользовалась программой GOstat . На вход дала файл - P07862.txt , изменила параметр Available GO gene-association databases & commonly used gene collections на goa_uniprot, максимальный p-value поставила 0,01 (чем меньше P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов). Из полученных GO ID выбрала четыре наиболее, по моему мнению, перепредставленных терминов GO:
GO ID        p-value      Ontology        

GO:0022603   2.11e-46      biological process 
	 
GO:0022604   2.11e-46      biological process

GO:0008360   2.11e-46      biological process

GO:0050793   6.55e-46      biological process
Основная функция представленных в файле белков - это регуляция морфогенеза (т.е. развития органов и организма в целом).

©, "ООО Шиндяпина 2008"