На главную страницу
На страницу четвёртого семестра

Gene Ontology

Знакомство с терминологией GO

1)Опиcание функции белка Maf_Bacsu с помощью аннотации Gene Ontology


Описание функции белка Maf_Bacsu в соответствии с GO-аннотацией

  Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка(ответ на вопрос)
(краткое описание, близкое к тексту определения термина(ов) GO
Где? Cellular component 1 Во всех компонентах клетки, за исключением мембраны и ядра,но включая другие субклеточные структуры.
Зачем, для чего? Biological process (биологический процесс) 0 нет данных
Молекулярный механизм? Molecular function (молекулярная функция) 0 нет данных
Специфичность? Molecular function (молекулярная функция) 0 нет данных

2)Описание термина GO, ассоциированного с белком Maf_Bacsu


Описание терминов GO

GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
GO:0005737 None GO:0005575
GO:0005623(part_of (inferred))
GO:0044464(part_of (inferred))
GO:0005622(part_of (inferred))
GO:0044424 (is_a)
GO:0044444(part_of)
GO:0045495 (is_a)
GO:0016528 (is_a)

Изображение графа родительских, дочерних терминов и терминов-сибсов:


Оценка качества функциональной аннотации белков в UniProt

1)Определение числа реальных и гипотетических белков из таксона Pongo (Орангутанг; англ. Orangutan)

Описание:
Taxonomy ID: 9599
Inherited blast name: primates (приматы)
Rank: genus (род)
  Количество в UniProt Количество в UniRef100
Существование белка доказано экспериментально 10 14
Известны только соответствующие транскрипты 2119 2118
Гипотетический белок, предсказан по гомологии 318 388
Иные предсказанные гипотетические белки 4 4

Соотношение между реальными и гипотетическими белками из Pongo (по данным UniProt)~= 6:1

2)Определение качества функциональной аннотации в UniProt


В задании требовалось выясенить сколько из реальных белков заданного таксона аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции. К сожалению из 10 находок ни она не удовлетворяет заданным требованиям, единственные два встречающихся кода- это IEA: Inferred from Electronic Annotation и ISS: Inferred from Sequence or Structural Similarity, не относятся к экспериментальным.
Ссылка на файл Excel dop.xls

Использование GO для работы с массовыми данными

1) Описание протеома бактерии, полный геном которой секванирован, c использованием терминов GO.

Выбрана бактерия Staphylococcus aureus subsp. aureus COL

а)Число белков протеома-2679
b)Процент записей, для которого приписан хоть один термин GO
GO:0003674 molecular_function 59.7%
GO:0008150 biological_process 54.0%
GO:0005575 cellular_component 27.1%

с) Больше всего терминов из словаря molecular_function
d)Наиболее часто встречающиеся термины из словарей:
функция- GO:0003824(каталитическая активность, 1062 белка)
процесс - GO:0007582(физиологический процесс, 1394 белка), GO:0008152(метаболизм, 1076 белков)
локализация - GO:0005623(клетка)
e) Наверное, интересно, что меньше всего описан протеом по терминам локализации(27.1%), что видимо верно, так как важнее для исследования чаще как раз оказывается функция белка, и процесс в котором он участвует. В целом протеом данной бактерии описан довольно подробно, и все основные события и процессы в жизни клетки закреплены в соответствующих соварях.

Ссылка на файл Excel zapros.xls

2) Получение выборки последовательностей белков с заданной функцией

Функция - биосинтез аминокислот, термин GO - GO:0006520 cellular amino acid metabolic process; словарь- процесс(Р)
Количество находок- 2. Ссылка на файл fasta nah.fasta

3) Определение главной функции в большом списке белков

Самые перепредставленные термины GO в выборке, среди которой есть белок P69908 DCEA_ECOLI.
термин GO Число генов P-value название термина
GO:0005886 30 1.2e-25 plasma membrane C
GO:0005515 22 7.93e-09 protein binding F
GO:0044425 29 0.00564 membrane part C
GO:0044464 56 0.00781 cell part C
GO:0016020 36 0.00398 membrane C
GO:0009064 10 5.17e-07 glutamine family amino acid metabolic process P
GO:0019752 15 0.00172 carboxylic acid metabolic process P

Термины, ассоциированные с белком DCEA_ECOLI:

GO:0003824(catalytic activity F)
GO:0004351(glutamate decarboxylase activity F)
GO:0005624(membrane fraction C)
GO:0006536(glutamate metabolic process P)
GO:0016829(lyase activity F)
GO:0016831(carboxy-lyase activity F)
GO:0019752(carboxylic acid metabolic process P)
GO:0030170(pyridoxal phosphate binding F)


По UniProt:

GO:0005829; C:cytosol; IDA:UniProtKB.
GO:0016020; C:membrane; IDA:UniProtKB.
GO:0004351; F:glutamate decarboxylase activity; IDA:EcoCyc.
GO:0030170; F:pyridoxal phosphate binding; IEA:InterPro.
GO:0006536; P:glutamate metabolic process; IEA:InterPro.
GO:0051454; P:intracellular pH elevation; IMP:EcoCyc.

Резюме

Таким образом, в терминах, ассоцированных с белком DCEA_ECOLI, встречаются два из перечня наиболее распространнённых в группе. Это GO:0019752 и GO:0016020 (второй по базе данных Uniprot). Первый говорит о причастности к процессам метаболизма карбоновых кислот, второй указывает на локализацию на мембране.
Можно отметить, что наиболее часто встречающимися терминами в группе, являются в основном термины из словаря локализации, что видимо связано с тем, что среди таких терминов должно быть меньшее разнообразие(как мы видели в предыдущем задании) , и в то же время каждый белок-таки должен быть где-то локализован. Термины из других словарей описывают наиболее важные биологические процессы: метаболизм карбоновых кислот, глутамина, и т.д.

© Zhuravleva Katya, 2009