Связь "is_a":
"A is B" означает, что
А - частный случай В.
Cвязь "part_of":
"A is part of B" означает, что А - часть В, но
В не обязательно содержит А.
II. Оценка качества функциональной аннотации белков в UniProt
1. Определение числа реальных и гипотетических белков из Oryza
На сайте NCBI в БД Taxonomy таксон Oryza (NCBI_TaxID: 4527) имеет ранг рода и
переводится на русский язык как рис, на английский - rice.
Теперь посмотрим, как в SRS проиндексировано поле ProteinExistence БД UniProt:
1: evidence at protein level (cуществование белка доказано экспериментально);
2: evidence at transcript level (известны только соответствующие транскрипты);
3: inferred from homology (гипотетический белок, предсказанный по гомологии);
4: predicted (иные предсказанные гипотетические белки);
5: uncertain (существование белка не доказано).
Соотношение между реальными и гипотетическими белками из Oryza (по данным UniProt)
|
Количество в UniProt |
Существование белка доказано экспериментально |
389 |
Известны только соответствующие транскрипты |
16086 |
Гипотетический белок, предсказан по гомологии |
9741 |
Иные предсказанные гипотетические белки |
120337 |
Существование всего 0,26% белков из таксона Oryza было доказано экспериментально,
и около 11% - по соответствующим транскриптам. Этого следовало ожидать, ведь
проведение эксперимента - это долгое и трудоёмкое занятие. Предсказывать с помощью
информационных технологий
по гомологии или в соответствии с другими теориями гораздо проще.
2. Определение качества функциональной аннотации в UniProt
Необходимо определить с помощью одного запроса к SRS, сколько из реальных
белков заданного таксона Oryza аннотированы по всем трем словарям GO
и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального
доказательства функции.
Коды экспериментального доказательства функции в словарях GO:
1. Inferred from Experiment (EXP);
2. Inferred from Direct Assay (IDA);
3. Inferred from Physical Interaction (IPI);
4. Inferred from Mutant Phenotype (IMP);
5. Inferred from Genetic Interaction (IGI);
6. Inferred from Expression Pattern (IEP).
Запрос в SRS:
(([uniprot-ProteinExistence:*prot*] & [uniprot-Taxonomy:Oryza*]) & (((([uniprot-DBxref_:*GO*] & [uniprot-DBxref_:*P:*]) & [uniprot-DBxref_:*F:*]) & [uniprot-DBxref_:*C:*]) & ((((([uniprot-DBxref_:EXP:*] | [uniprot-DBxref_:IDA:*]) | [uniprot-DBxref_:IPI:*]) | [uniprot-DBxref_:IMP:*]) | [uniprot-DBxref_:IGI:*]) | [uniprot-DBxref_:IEP:*])))
Всего найдено 30 записей.
Белков из заданного таксона, существование которых доказано экспериментально, в UniProt всего 385, но и они
не все полностью проаннотированы по словарям GO с хотя бы одной функцией, доказанной экспериментально.
А таких белков ещё меньше. То есть можно сказать, что мы имеем достоверные и довольно полные знания
только о 30 белках данного таксона и их функциях.
III. Использование GO для работы с массовыми данными
1. Определение числа реальных и гипотетических белков из Oryza
Я произвёл поиск в UniProt всех белков заданного таксона Oryza, выполняющих функцию биосинтеза аминокислот.
На английский язык название функции переводится как amino acid biosynthesis. В словаре терминов
GO для этой функции нашёлся термин GO:0008652 : cellular amino acid biosynthetic process.
Запрос в SRS выглядит следующим образом:
([uniprot-Taxonomy:Oryza*] & ([uniprot-DBxref:GO:0008652*] > parent ))
Было найдено 37 записей:
скачать (последовательности в fasta-формате).
2. Определение главной функции в большом списке белков
Для выполнения задания я взял файл P46883.txt со списком AC различных белков, включающих
и мой AMO_ECOLI. На страничке программы GOstat я загрузил этот файл и изменил следующие параметры:
Available GO gene-association databases & commonly used gene collections: goa_uniprot;
Maximal p-value in GO output list: 0.01.
Были получены следующие результаты:
GO ID | Термин | Онтология | P-value
|
---|
GO:0005886 | plasma membrane | cellular component | 2.65e-10 |
GO:0042597 | periplasmic space | cellular component | 1.21e-05 |
GO:0005507 | copper ion binding | molecular function | 3.42e-05 |
GO:0005515 | protein binding | molecular function | 0.0002 |
GO:0046914 | transition metal ion binding | molecular function | 0.00102 |
GO:0005375 | copper ion transmembrane transporter activity | molecular function | 0.00238 |
GO:0043169 | cation binding | molecular function | 0.00491 |
GO:0044464 | cell part | cellular component | 0.00806 |
Среди данных значений P-value можно заметить резкое возрастание только от первого ко второму термину.
Один термин несёт в себе мало информации, поэтому в результатах представлены все термины с обычным P-value < 0.01.
По таблице можно сделать вывод, что в используемом файле были представлены белки, которые
в основном находятся в плазматической мембране или периплазме. Основные функции доминирующих белков -
это связывание и/или транспорт через мембранов ионов металлов (чаще всего меди), а также связывание белков.