Знакомство с терминологией GO

Описание функции белка с помощью аннотации Gene Ontology

Используя ссылки записи UniProt о BGAL_ECOLI (AC:P00722) на записи GO была заполнена следующая таблица:

Описание функции белка BGAL_ECOLI в соответствии с GO-аннотацией

  Онтология GO Количество терминов GO Функция белка
Где C 1 Бета-галактозидазный комплекс: белковый комплекс (у E.coli – гетерооктамер из 4 альфа и 4 бета субъединиц), который катализирует гидролиз терминального бета-D-галактозного остатка в бета-D-галактозидах
Зачем, для чего P 3 Катаболизм лактозы: химические реакции и пути, результатом которых является разложение лактозы – дисахарида глюкозы и галактозы
Молекулярный механизм F 5 Бета-галактозидазная активность: катализирует гидролиз терминального остатка бета-D-галактозы в бета-D-галактозидах
Специфичность F 5 Селективно и нековалентно связывается с ионом магния, белком и углеводом.

Описание термина GO

Из записей GO, на которые ссылается запись UniProt P00722, были выбраны 3, по одной из каждого словаря: GO:0004565 (F), GO:0005990 (P) и GO:0009341 (С). Были построены графы родительских, дочерних терминов и терминов-сибсов. Граф для GO:0009341 приведен не полный, так как у этого термина слишком много терминов-сибсов, в граф включено лишь несколько из них.

Описание терминов GO

Термин Список синонимов Список ближайших родительских терминов Список ближайших дочерних терминов Граф
GO:0004565 beta-D-galactanase activity
beta-D-galactoside galactohydrolase activity
beta-D-lactosidase activity
beta-lactosidase activity
exo-(1->4)-beta-D-galactanase activity
trilactase activity
(I) GO:0015925 - ***
GO:0005990 lactose breakdown
lactose catabolism
lactose degradation
(I) GO:0046352
(I) GO:0005988
(I) GO:0019512
(I) GO:0019515
(I) GO:0019513
***
GO:0009341 - (I) GO:0043234 - неполный граф

(I) - Выбранный термин is a GO:...(для родительских терминов) или GO:... is a выбранный термин (для дочерних терминов)

Оценка качества функциональной аннотации белков в UniProt

Определение числа реальных и гипотетических белков из рода Пшеница (Triticum).

Описание таксона "Пшеница":

Соотношение между реальными и гипотетическими белками из рода Triticum (по данным UniProt)

  Количество в UniProt
Существование белка доказано экспериментально 155
Известны только соответствующие транскрипты 2388
Гипотетический белок, предсказан по гомологии 595
Иные предсказанные гипотетические белки 2755

Из таблицы видно, что достаточно много белков, для которых известны только соответствующие транскрипты. Экспериментально доказанных меньше всего, однако, мало и белков, предсказанных по гомологии, что странно.

Определение качества функциональной аннотации в UniProt

C помощью одного запроса к SRS пытался определить, сколько из реальных (доказанных экспериментально) белков пшеницы, у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции, аннотированы по всем трем словарям GO. Запрос получился слишком сложным для SRS и он не смог его выполнить. Тогда проделал ту же операцию, исключив условие присутствия аннотаций GO по всем трем словарям. Таких белков оказалось 4, из них ни одного, аннотированного в 3 словарях GO. Отсюда следует, что даже про экспериментально установленные белки в UniProt нет полной функциональной аннотации (из 155 ни у одного), т.е. её качество оставляет желать лучшего.

Использование GO для работы с массовыми данными

Получение выборки последовательностей белков с заданной функцией

Получил список белков пшеницы, отвечающих за синтез липидов (а точнее тех, у которых в записи UniProt есть ссылка на аннотацию GO "lipid biosynthetic process" GO:0008610). Оказалось, такой белок в UniProt описан один, а именно A6XMZ4_TRIMO (AC: A6XMZ4) - фосфоэтаноламин N-метилтрансфераза, из вида Triticum monococcum (пшеница однозернянка). Отсюда вывод: в Uniprot слишком мало белков, чтобы искать среди них белки с заданной функцией (запрос: ([uniprot-Taxonomy:Triticum*] & [uniprot-DBxref_:GO:0008610*]))
(Последовательность в fasta формате)

Определение главной функции в списке белков

С помощью программы GOstat определил, белки с какими функциями доминируют в списке. Статистически значимыми считались найденные GO ID, если E-value находки было меньше 0,01.

Функции, преобладающие в списке

GO ID Функция Онтология GO Относится ли к BGAL_ECOLI E-value
GO:0030246 carbohydrate binding f да 7.92e-14
GO:0005515 protein binding f да 1.44e-06
GO:0005886 plasma membrane c нет 1.61e-06
GO:0005975 carbohydrate metabolic process p да 3.26e-06
GO:0044262 cellular carbohydrate metabolic process p нет 1.42e-05
GO:0005988 lactose metabolic process p нет 0.00477
GO:0006066 alcohol metabolic process p нет 0.00634
GO:0009341 beta-galactosidase complex c да 0.00747
GO:0004565 beta-galactosidase activity f да 0.00904
GO:0005996 monosaccharide metabolic process p нет 0.00904

Резкий скачок E-value наблюдается между GO:0044262 и GO:0005988, сильно отличается по E-value от всех остальных первая находка GO:0030246. Таким образом, в списке белков преобладают белки, связывающиеся с углеводами. Много белков, взаимодействующих с другими белками, находящихся в плазматической мембране и вовлеченных в процесс клеточного метаболизма углеводов.

Из 10 находок половина описывают функцию белка BGAL_ECOLI, т.е. многие белки, представленные в списке имеют функцию, некоторым образом сходную с данным белком.

Назад

2010 ©