Занятие 7.

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Описание функции белка ALR1_ECOLI в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      Где? сведений нет - -
      Зачем, для чего? Biological process 4 1.Биосинтез пептидоглюкана (химические реакции,в результате которых образуется пептидоглюкан, компонент бактериальной клеточной стенки).
      2. Метаболизм аланина (химические реакции, в которых участвует аланин - 2-аминопроановая кислота).
      3. Регуляция формы клетки (процесс, который модулирует конфигурацию поверхности клетки).
      4.Организация клеточной стенки (процесс, в результате которого осуществляется сборка составных частей клетки или разбор клеточной стенки).
      Молекулярный механизм? Molecular function 3 1. Каталитическая активность (активация какой-либо химическое реакции).
      2. Изомеразная активность (Катализ 1,1- , 1,2- или 1,3- переноса водорода).
      3.Аланин-рацемазная активность (катализ реакции превращения L-аланина в D-аланин).
      Специфичность? Molecular function 1 Взаимодействие с пиридоксальфосфатом (селективное нековалентное взаимодействие с пиридоксальфосфатом - 3-гидркси-5-(гидроксиметил)-2-метил-4-пиридинкарбоксиальдегид 5'-фосфатом).

    3. Описание термина GO

    4. Выберем по одному термину из каждого словаря GO. Затем проведем поиск описаний выбранных терминов на на главном сайте консорциума Gene Ontology .

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0006522
      alanine metabolic process (метаболизм аланина)
      alanine metabolism (метаболизм аланина) GO:0009078 (pyruvate family amino acid metabolic process - метаболизм аминокислот), тип связи is a;
      GO:0006520 (cellular amino acid metabolic process - клеточный метаболизм аминокислот), тип связи is a;
      GO:0034641 (cellular nitrogen compound metabolic process - клеточный метаболизм азотосодержащих веществ), тип связи is a;
      GO:0006523 (alanine biosynthetic process - биосинтез аланина), тип связи is a;
      GO:0006524 (alanine catabolic process - катаболизм аланина), тип связи is a;
      GO:0042851 (L-alanine metabolic process - метаболизм L-аланина), тип связи is a;
      GO:0008784 alanine racemase activity (аланин-рацемазная активность) L-alanine racemase activity (L-аланин-рацемазная активность) GO:0047661 (amino-acid racemase activity - аминокислотная рацемазная активность), тип связи is a;
      GO:0016855 (racemase and epimerase activity, acting on amino acids and derivatives - рацемазная активность, провяляющаяся по отношению к аминокислотам и их производным), тип связи is a;
      GO:0016854 (racemase and epimerase activity - рацемазная и эпимеразная активность), тип связи is a;
      GO:0016853 (isomerase activity - изомеразная активность), тип связи is a;
      GO:0003824 (catalytic activity - каталитическая активность), тип связи is a;
      нет

      Файлы с изображением графов родительских, дочерних терминов и терминов-сибсов:
      для GO:0006522
      для GO:0008784 (нет дочерних терминов и терминов-сибсов.

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из Cavia porcellus
    2. Заданный таксон - морская свинка (лат. Cavia porcellus, англ. Guinea pig). На сайте NCBI ранг таксона: species (виды), его идентификатор (Taxonomy ID): 10141.

      Соотношение между реальными и гипотетическими белками из Cavia porcellus (по данным UniProt)

        Количество в UniProt Количество в UniRef100
      Существование белка доказано экспериментально 94 93
      Известны только соответствующие транскрипты 537 528
      Гипотетический белок, предсказан по гомологии 103 102
      Иные предсказанные гипотетические белки 69 69


      Как видно из таблицы, меньше всего гипопетических белков, предсказанных не по гомолоии. Немного больше белков, существование которых было доказано экспериментально, но и они составляют весьма небольшую долю от всех белков Cavia porcellus. Существование большинства белков основано на существовании соотвествующих транскриптов.

    3. Определение качества функциональной аннотации в UniProt

    4. Определим с помощью SRS, сколько из реальных белков аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции (EXP, IDA, IPI, IMP, IGI, IEP).
      При запросе:
      Organism name Cavia porcellus
      DBxref_ (EXP:|IDA:|IPI:|IMP:|IGI:|IEP:)(P:&F:&C:)
      DBxref_ 1: Evidence at protein level

      SRS находит 3 белка (5HT3A_CAVPO, LIPR2_CAVPO, ZP3R_CAVPO).
      Как мы видим, в UniProt экспериментально полученных белков (имеющих хотя бы один из кодов экспериментального доказательства функции GO) с полностью изученной функцией (аннотированных по всем трем словарям GO) очень мало. Функции большинства белков пока изучены не до конца или неизвестны (аннотированных по двум и менее словарям GO).

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией

    2. Проведем поиск функции "бисинтез пиримидинов" (pyrimidine biosynthesis) среди всех терминов GO.
      Выберем GO:0006221 : pyrimidine nucleotide biosyntethic process. Этот термин относится к словарю Biological process.
      Затем проведем поиск всех белков из таксона Cavia porcellus с таким идентификатором GO.
      Запрос:
      Organism name Cavia porcellus
      DBxref_ GO:0006221

      По такому запросу SRS ничего не нашел.

    3. Определение главной функции в большом списке белков

    4. В полученном файле P0A6B4.txt находится список белков, включающий заданный белок. Используя программу GOstat , определим, белки с какими функциями доминируют в этом списке.
      Пoлучим самыe перепредставленных терминов GO и их онтологии :
       
             GO         p-value   count  ontology
       
          GO:0005886    2.25e-66   71    cellular component
          GO:0022603    6.9e-46    36    biological process
          GO:0022604    6.9e-46    36    biological process
          GO:0008360    6.9e-46    36    biological process
          GO:0050793    2.28e-45   36    biological process
          GO:0000902    6.1e-40    36    biological process
          GO:0032989    6.1e-40    36    biological process
          GO:0009653    2.42e-39   36    biological process
          GO:0048856    1.11e-38   36    biological process
          

      GO Функция
      GO:0005886 Мембрана, окружающая клетку, отделяющая её от внешней среды.
      GO:0022603 регуляция морфогенеза
      GO:0022604 регуляция формы и размера клетки
      GO:0008360 модуляция конфигурации поверхности клетки
      GO:0050793 модуляция скорости и степени развития
      GO:0000902 регуляция морфогенеза
      GO:0032989 регуляция морфогенеза
      GO:0009653 организация анатомической структуры, морфогенез и эмбриогенез
      GO:0048856 развитие анатомической структуры

      Таким образом, в выборке доминируют белки, связанные с развитием и формированием клеток.
      Перепредставленные термины коррелируют с терминами, ассоциированными с заданным белком: перепредставленные термины связаны с формированием клетки, в то время как белок ALR1_ECOLI ответственен в определенной мере за организацию клеточной стенки и регуляцию формы клеток.