Функции генов и их продуктов.
GO и его онтологии


  1. Поиск нужного термина в словарях GO.

    Целью упражнения было найти наиболее подходящий термин GO, описывающий заданную локализацию некого белка. Локализация в клетке следующая: аппарат Гольджи, организм-источник - Caenorhabditis elegans (нематода). Поиск проводился на главном сайте консорциума GO, в строку поиска вводилось выражение "Golgi apparatus". Существует две альтернативы: искать среди описаний генов и белков или среди терминов GO, мы выбрали второй пункт. На такой запрос поисковая система выдала 6 результатов - терминов и понятий, определений процессов, тем или иным способом связанных с аппаратом Гольджи. Наиболее подходящим показался термин GO, непосредственно определяющий аппарат Гольджи. Название выбранного термина : "Golgi apparatus" ("Аппарат Гольджи"), идентификатор (accession) - GO:0005794. Этот термин относится к онтологии "cellular components" (клеточные компоненты). В поле "Term information", кроме названия онтологии, идентификатора, синонимов, дано достаточно развернутое определение термина "Аппарат Гольджи", а также замечания. Определение в переводе на русский язык выглядит так:

    "Сложная мембранная цитоплазматическая органелла эукариотической клетки, состоящая из уплощенных пузырьков, свободных от рибосом и расположенных в более или менее упорядоченном скоплении. Аппарат Гольджи отличается от эндоплазматического ретикулума (ЭПР) тем, что часто имеет несколько более утолщенные мембраны, на гистологических срезах выглядящие как характерные вздутые полуокружности. Их выпуклая сторона (цис-полюс, полюс входа) примыкает к ЭПР, а с вогнутой стороны (транс-полюс, полюс выхода) аппарат покидают секреторные гранулы. В клетках позвоночных обычно находится по по одной такой органелле, в то время как у беспозвоночных и растений может быть несколько разбросанных по цитоплазме органелл (у этих организмов они обычно называются диктиосомами). Аппарат Гольджи обрабатывает белки, синтезируемые рибосомами гранулярного эндоплазматического ретикулума. Такая обработка включает модификацию олигосахаридов гликопротеинов, сортировку и упаковку белков для дальнейшего транспорта в различные клеточные компартменты. Сейчас различают три разных участка аппарата Гольджи, как по структуре, так и по функциональной нагрузке: цис-участок, расположенный вблизи цис-полюса, транс-участок - рядом с транс-полюсом и среднюю часть, лежащую между цис- и транс-регионами."

    Заметим, что выбранный термин GO подходит к заданной нам локализации, определяемое им понятие относится ко всем эукариотическим организмам, в том числе и беспозвоночным и C.elegans в частности.

  2. Описание функции аспартатаминотрансферазы E.coli с помощью GOA и EcoCyc.

    В поле запроса базы данных GOA был введен AC UniProt аспартатаминотрансферазы E.coli - P00509. Получили все термины GO, тем или иным образом связанные с этим белком, в том числе 2 термина из онтологии process, 6 терминов из онтологии function и ни одного - из онтологии component. По данным выдачи составлена таблица следующего вида:

    Таблица 1. Описание функции AAT_ECOLI с помощью GOA и EcoCyc.


      Онтология GO Количество ассоциированных терминов GO Ответ на вопрос по данным GO Ответ на вопрос по данным EcoCyc
    Где? component 0 цитоплазма
    Для чего? process 2 Биосинтетические процессы; метаболизм аминокислот деградация глутамата, синтез аспартата, катализ реакции
    L-aspartate + α-ketoglutarate <=> oxaloacetate + L-glutamate
    Каким образом? function 6 Каталитические активности:
    1. трансаминазная активность
    2. трансферазная активность
    Соединение с белками
    "Механизм пинг-понг "*
    Ковалентное связывание с кофактором
    Специфичность, (с чем?) function, processes** Аминокислоты (аспартат) Широкая субстратная специфичность: L-аспартат, альтернативные субстраты - L-тирозин, ароматические аминокислоты (L-фенилаланин)
    Кофактор пиридоксальфосфат (PLP)

    *Примечание1: имеется в виду механизм катализа, осуществляемый за счет того, что, кофактор (в данном случае пиридоксальфосфат) постоянно конвертируется из одной своей формы в другую (пиридоксальфосфат <=> пиридоксаминфосфат).

    **Примечание2: так как в GO не существует отдельной онтологии для описания специфичности (скажем, ферментов), данные по этому вопросу можно получить из других онтологий, но, к сожалению, не всегда.

    Не может не обратить на себя внимания такая функция, как "соединение с белками". Известно, что AAT_ECOLI - гомодимер (данные PDB, PDB-код 1toj и EcoCyc), то есть отдельные молекулы белка соединяются друг с другом по две, формируя олигомер - это первая трактовка функции "соединение с белками". Однако, кроме участка, за счет которого взаимодействуют мономеры внутри олигомера, каждый мономер аспартатаминотрансферазы содержит элемент сверхвторичной структуры под названием "coiled coil", обычно служащий для связывания мономеров внутри олигомера. Тем не менее, как было выяснено с помощью RasMol, coiled coil в случае AAT_ECOLI не принимает участия в непосредственном контакте мономеров (см. здесь). Можно предположить, что в процессе своей деятельности AAT_ECOLI взаимодействует с белками или белковыми комплексами иной природы. Все подобные взаимодействия, насколько нам известно, описываются в GO как "protein binding" - соединение с белками.
     

    1. Создание больших выборок белков с определенными функциями (поиск по идентификаторам GO в БД UniProt с помощью SRS).

      Таблица 2. Протеом Caenorhabditis elegans; результаты поиска в UniProt, 14.03.2007 г.

      Количество записей Запрос
    Всего 23214 (([uniprot-Organism:Caenorhabditis*] & [uniprot-Organism:elegans*]) | [uniprot-Organism:Caenorhabditis elegans*])
    С идентификаторами всех 3-х онтологий GO 3383 ((([uniprot-Organism:Caenorhabditis*] & [uniprot-Organism:elegans*]) | [uniprot-Organism:Caenorhabditis elegans*]) & (([uniprot-DBxref_:F:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*]))
    В том числе белки аппарата Гольджи 34 ((([uniprot-Organism:Caenorhabditis*] & [uniprot-Organism:elegans*]) | [uniprot-Organism:Caenorhabditis elegans*]) & (([uniprot-DBxref_:F:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:Golgi*]))
    В том числе только с самыми хорошими доказательствами функции (коды только IDA или TAS) 1 ((([uniprot-Organism:Caenorhabditis*] & [uniprot-Organism:elegans*]) | [uniprot-Organism:Caenorhabditis elegans*]) & (((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:Golgi*]) & ([uniprot-DBxref_:TAS*] | [uniprot-DBxref_:IDA*])) ! (((((((((([uniprot-DBxref_:IMP*] | [uniprot-DBxref_:IGI*]) | [uniprot-DBxref_:IPI*]) | [uniprot-DBxref_:RCA*]) | [uniprot-DBxref_:ISS*]) | [uniprot-DBxref_:IEP*]) | [uniprot-DBxref_:NAS*]) | [uniprot-DBxref_:IEA*]) | [uniprot-DBxref_:IC*]) | [uniprot-DBxref_:ND*]) | [uniprot-DBxref_:NR*])))
    И только с самыми плохими доказательствами функции (коды IEP, NAS, IEA, IC, ND или NR) 33 ((([uniprot-Organism:Caenorhabditis*] & [uniprot-Organism:elegans*]) | [uniprot-Organism:Caenorhabditis elegans*]) & (((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:Golgi*]) & (((((([uniprot-DBxref_:IEP*] | [uniprot-DBxref_:NAS*]) | [uniprot-DBxref_:IEA*]) | [uniprot-DBxref_:IC*]) | [uniprot-DBxref_:ND*]) | [uniprot-DBxref_:NR*]) | [uniprot-DBxref_:ISS*])) ! ((((([uniprot-DBxref_:IDA*] | [uniprot-DBxref_:TAS*]) | [uniprot-DBxref_:IMP*]) | [uniprot-DBxref_:IPI*]) | [uniprot-DBxref_:IGI*]) | [uniprot-DBxref_:RCA*])))
    Те, у которых встречается хотя бы один раз самое хорошее доказательство функции (коды IDA или TAS) 1 ((([uniprot-Organism:Caenorhabditis*] & [uniprot-Organism:elegans*]) | [uniprot-Organism:Caenorhabditis elegans*]) & ((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:Golgi*]) & ([uniprot-DBxref_:IDA*] | [uniprot-DBxref_:TAS*])))

    Из вышеприведенных результатов поиска можно сделать вывод о том, насколько хорошо аннотированы в UniProt функции белков аппарата Гольджи C.elegans. Заметим, что здесь под словом "функция" мы имеем в виду данные, указанные не только в онтологии "function", но и в остальных онтологиях GO. Как видно из таблицы, громадное большинство белков аппарата Гольджи C.elegans (33 из 34-х) обладают самыми плохими доказательствами функции; только один белок (LIN10_CAEEL) имеет аннотацию в GO с самым хорошим шифром IDA. Пыоэтому можно сказать, что функции белков аппарата Гольджи C.elegans аннотированы в UniProt очень плохо.

    Заметим, что здесь использовалась общепринятая иерархия кодов доказательств, то есть за самые хорошие коды были приняты IDA и TAS, самые плохие - IEP, NAS, IEA, IC и ND. В последнюю группу также был внесен код NR (Not Recorded), используемый в ситуациях, когда данные еще не обрабатывались куратором GO.

    При выполнении третьего дополнительного задания заметили интересную вещь. Выдача SRS очень экономична с точки зрения места, и если подряд идут несколько аннотаций GO с одним и тем же кодом данных (скажем, ISS), то код будет написан только для первой аннотации из такой группы. Это не мешает поиску, ведь ищем мы записи белков и считаем их количество, а не количество аннотаций. К примеру, для белка семь аннотаций "подкреплены" кодом IDA, тогда как SRS выводит этот код только один раз.



©Ганчарова Ольга