1. Знакомство с терминологией GO1. Описание функции белка с помощью аннотации Gene Ontology
2. Описание термина GOВыберем 3 наиболее содержательных термина GO, ассоциированных с изучаемым белком:1. glucuronate catabolic process (словарь Biological Process) 2. isomerase activity (словарь Molecular Function) 3. glucuronate isomerase activity (словарь Molecular Function) Проведем поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology.
1.glucuronate catabolic process 2.isomerase activity 3.glucuronate isomerase activity 2. Оценка качества функциональной аннотации белков в UniProt1. Определение числа реальных и гипотетических белков из орангутангаНазвания заданного таксона - Pongo (лат.) / Orangutans (англ.) / Орангутаны (рус.), ранг таксона - род, идентификатор (NCBI_TaxID) - 9599.Поле ProteinExistence БД UniProt в SRS проиндексировано следующим образом: 1 - evidence at protein level (cуществование белка доказано экспериментально) 2 - evidence at transcript level (существование белка доказано на уровне соответствующих ему транскриптов) 3 - inferred from homology (предсказан по гомологии) 4 - predicted (предсказан другими способами) 5 - uncertain (существование белка не доказано)
Экспериментально доказано существование крайне малого количества белков из орангутанов (меньше 1%), для подавляющего количества белков известны только соответствующие транскрипты, также существование многих белков предсказано гипотетически (по гомологии либо иными способами). Результат оказался предсказуемым, учитывая сложность доказательства существования белка экспериментальми методами, а также то, что орангутанг - крайне редкий объект лабороторных исследований, но все же было довольно неожиданным то, что экспериментально доказано существование всего десятка белков из более чем 5000 имеющихся в БД UniProt! 2. Определение качества функциональной аннотации в UniProtОпределим с помощью одного запроса к SRS, сколько из реальных белков таксона Pongo аннотированы по всем трем словарям GO и имеют хотя бы один из кодов экспериментального доказательства функции:EXP: Inferred from Experiment IDA: Inferred from Direct Assay IPI: Inferred from Physical Interaction IMP: Inferred from Mutant Phenotype IGI: Inferred from Genetic Interaction IEP: Inferred from Expression PatternБДля этого используем такой запрос: (([swissprot-Taxonomy:Pongo*] & [swissprot-ProteinExistence:1:*]) & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))По данному запросу не было найдено ни одной последовательности, это связано с тем, что в UniProt очень мало экспериментально полученных белков (например для Pongo всего 9), а тем более аннотированных по всем трем словарям GO (т.е. хорошо изученных). 3. Использование GO для работы с массовыми данными1. Получение выборки последовательностей белков с заданной функциейБыл проведен поиск термина "Биосинтез пиримидинов" (англ. - pyrimidine biosynthetic process) среди всех терминов GO на сайте консорциума Gene Ontology.Из полученных результатов поиска мною был выбран термин GO:0019856 : pyrimidine base biosynthetic process (биосинтез пиримидиновых оснований), относящийся к словарю biological process. Далее был сформирован запрос к SRS для поиска всех белков из таксона Pongo с идентификатором GO:0019856 : ([uniprot-Organism:Pongo*] & [uniprot-DBxref_:GO:0019856*])по которому не было найдено не одной последовательности. Запросы с идентификаторами GO:0006221 : pyrimidine nucleotide biosynthetic process и GO:0009130 : pyrimidine nucleoside monophosphate biosynthetic process также не дали никаких результатов. 2. Определение главной функции в большом списке белковМне был дан текстовый файл со списком белков, полученный в результате массового эксперимента. Для определения доминирующих белков в этом списке воспользуемся программой GOstat.Результат: ниже будут представлены 3 самых перепредставленных в выборке термина GO (c P-value = 0), относящихся к доминирующим белкам; следом за ними наблюдался скачок P-value (следующее значение - 3.04e-25, после этого значения P-value плавно возрастало). 1. GO:0005886 - plasma membrane (словарь cellular component) 2. GO:0016853 - isomerase activity (словарь molecular function) - только этот термин из 3х представленных ассоциирован с изучаемым белком (UXAC_ECOLI) 3. GO:0005515 - protein binding (словарь molecular function) Итого: в выборке доминируют белки с изомеразной активностью и функцией связывания с белками, а также белки плазматической мембраны. Неудивительно, что эти функции оказались доминирующими, т.к. они очень объемные и включают в себя множество подфункций. Данные термины совпадают с терминами изучаемого мной белка (см. зад. 1.1) наличием термина "изомеразная активность". Назад |