Занятие 7.

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Откроем страницу UniProt с описанием заданного белка DACA_ECOLI

      Найдем в документе поле, в котором указаны ассоцированные с белком термины GO.Перейдем по гиперссылке "Complete GO annotation..." на страницу браузера QuickGO EBI. Рассмотрим открывшуюся таблицу, найдем гиперссылки на странички с описанием терминов. Опишем функцию белка в таблице.

      Описание функции белка DACA_Ecoli в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? C (Cellular Component ) 2 является компонентом плазматической мембраны. Проникает через один фосфолипидный бислой мембраны. Может быть погружен в бислой (полностью), не выставляя ничего наружу
      Зачем, для чего? P (Biological process) 6 регуляция клеточной целостности,организация клеточной стенки при клеточном делении: метаболический процесс пептидогликана->(это важнейший компонент клеточной стенки бактерий, выполняющий механические функции, осмотической защиты клетки, выполняет антигенные функции)
      Молекулярный механизм? F (Molecular Function) 6 Сериновый тип D-аланин-D-аланин карбоксипептидазная активность (отщепление по D-аланин-D-аланин), связывается с белками или белковыми комплексами селективно и нековалентно, обладает бета-лактамазной и гидролазной активностями,т.е гидролизует бета-лактамное кольцо (бета-лактамное кольцо является частью структуры нескольких семейств антибиотиков, которые ингибируют процессы синтеза клеточной стенки бактерий): бета-лактам + H2O = замещенная бета-аминокислота.
      Специфичность? - - -

    3. Описание термина GO
    4. Проведем поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology.

      Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи
      GO:0005886 bacterial inner membrane, inner endospore membrane, plasma membrane lipid bilayer , GO:0005904, cell membrane, cytoplasmic membrane, plasmalemma, juxtamembrane GO:0016020 membrane (связь is a) -
      GO:0010382 cellular cell wall macromolecule metabolism
      GO:0070882 биогенезис и организация клеточной стенки (связь is a)
      GO:0044260 макромолекулярный метаболический процесс в клеточной стенке (связь is a)
      GO:0044036 макромолекулярный метаболический процесс в клеточной стенке (связь is a)

      GO:0044038 макромолекулярный биосинтез в клеточной стенке (связь is a)
      GO:0034406 метаболический процесс бета-глюкана в клеточной стенке (связь is a)
      GO:0009002 D-alanyl carboxypeptidase activity, D-alanyl-D-alanine carboxypeptidase activity, D-alanyl-D-alanine-carboxypeptidase activity , D-alanyl-D-alanine-cleaving peptidase activity, D-alanyl-D-alanine-cleaving-peptidase activity, DD-peptidase activity, DD-transpeptidase activity, D-alanine carboxypeptidase, DD-carboxypeptidase GO:0004185 сериновый тип карбоксипептидазной активности (связь is a) -

      GO:0005886
      0005886.png
      GO:0010382
      0010382.png
      GO:0009002
      0009002.png

  2. Оценка качества функциональной аннотации белков в UniProt
  3. 1.Определение числа реальных и гипотетических белков из (таксон)

    На сайте NCBI в БД Taxonomy определим ранг таксона и его идентификатор (NCBI_TaxID).
    русское название: Рис
    английское название: rice
    латинское название: oryza sativa
    ранг: species (виды)
    NCBI_TaxID: 4530

    Изучим, как в SRS проиндексировано поле ProteinExistence БД UniProt.
    Перед поиском белков было изучено поле ProteinExistence БД UniProt. Ему соответствуют 5 значений:

           1: evidence at protein level		       свидетельство на белковом уровне
           2: evidence at transcript level	               свидетельство на уровне транскрипта
           3: inferred from homology 		       вывод сделан на осовании гомологии
           4: predicted 				       предсказание
           5: uncertain 				       неясно

    Соотношение между реальными и гипотетическими белками из Oryza (по данным UniProt)

      Количество в UniProt
    Существование белка доказано экспериментально 385
    Известны только соответствующие транскрипты 16065
    Гипотетический белок, предсказан по гомологии 9596
    Иные предсказанные гипотетические белки 120394

    Соотношение между реальными и гипотетическими белками: в UniProt (385+16065)/(9596+120394)=0,127
    Отношение реальных белков к гипотетическим мало, т.к. на доказательство первых уходит больше времени

  4. Определение качества функциональной аннотации в UniProt
  5. Определим с помощью одного запроса к SRS, сколько из реальных (см. выше) белков заданного таксона oryza sativa аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции (EXP:,IDA:,IPI:,IMP:,IGI:,IEP:)(см. Guide to GO Evidence Codes).

    Запрос, количество записей и вывод:


    полный запрос результатов не дал: (([swissprot-NCBI_TaxId:4530*] & [swissprot-ProteinExistence:1:*]) & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))
    из всевозможных уменьшений запроса результат дал только запрос: ([swissprot-NCBI_TaxId:4530*] & ((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:C:*]) & [swissprot-DBxref_:F:*]))
    69 находок
    Всего 69 реальных белков аннотированы по трем словарям GO. Реальных белков с описанием функции в SwissProt очень мало,это говорит о медленной скорости экспериментального подтверждения существования белков.

  • Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. Я выбрала идентификатор GO:0006412 и провела поиск белков из таксона Oryza с таким идентификатором.
      Русское название функции: трансляция
      Английское: translation
      Словарь: P (process)
      Количество находок: 1182
      Запрос к SRS: taxonomy Oryza, DBxref_ GO:0006412
      Находки в fasta формате

    3. Определение главной функции в большом списке белков
    4. Дан файл P0AEB2.txt .В этом файле – список белков, полученных в результате массового эксперимента. Список включает и заданный белок. Задача определить – белки с какими функциями доминируют в этом списке. Используем для этого программу GOstat.
      Результат в порядке возрастания P-value (чем ниже P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов):
                      (P-value)     (онтология)
      GO:0005886      3.72e-10  cellular component   plasma membrane lipid bilayer
      GO:0005515	2.15e-08  molecular function   protein tagging activity
      GO:0004180      2.15e-08  molecular function   Catalysis of the hydrolysis of the terminal or penultimate peptide bond at the C-terminal end of a peptide or polypeptide.
      GO:0009002      8.13e-07  molecular function   D-alanyl-D-alanine carboxypeptidase activity
      GO:0022603      9.18e-07  biological process   regulation of morphogenesis
      GO:0022604	9.18e-07  biological process   regulation of cell shape and cell size
      GO:0008360	9.18e-07  biological process   GO:0045788(Any process that modulates the surface configuration of a cell)
      GO:0050793	1.02e-06  biological process   Any process that modulates the frequency, rate or extent of development
      GO:0009252      1.16e-06  biological process   peptidoglycan biosynthesis
      GO:0004185      2.05e-06  molecular function   serine carboxypeptidase activity
      GO:0009273	3.71e-06  biological process   cell wall biosynthetic process
      GO:0031504	3.71e-06  biological process   peptidoglycan-based cell wall organization and biogenesis
      GO:0008238	3.71e-06  molecular function   exoprotease activity
      GO:0042546	3.71e-06  biological process   cell wall assembly
      GO:0000270	4.01e-06  biological process   peptidoglycan metabolism
      GO:0032989	4.01e-06  biological process   cellular structure morphogenesis
      GO:0000902	4.01e-06  biological process   cellular morphogenesis
      GO:0009653	4.86e-06  biological process   anatomical structure organization
      GO:0048856	6.03e-06  biological process   development of an anatomical structure
      GO:0050789      9.35e-06  biological process   regulation of physiological process
      GO:0065007	2.86e-05  biological process   regulation
      GO:0007047	2.87e-05  biological process   cell wall organization and biogenesis
      GO:0045229	3.01e-05  biological process   external encapsulating structure organisation
      GO:0005975	0.000193  biological process   carbohydrate metabolism
      GO:0032502	0.000213  biological process   development
      GO:0016051	0.000264  biological process   anabolic carbohydrate metabolic process
      GO:0043170	0.00111   biological process   macromolecule metabolism
      GO:0042597	0.00544   cellular component   periplasm
      GO:0017171	0.00646   molecular function   Catalysis of the hydrolysis of a substrate by a catalytic mechanism
      GO:0008236	0.00646   molecular function   serine protease activity
      

      Лидирует GO:0005886 с P-value 3.72e-10. Резкий скачок наблюдается между GO:0045229 и GO:0005975. Большинство находок из словаря P и всего два из C. Ко всем терминам, кроме GO:0042597 (т.к он относится к периплазме, а мой белок находится в мембране), относится белок DACA_ECOLI. Все термины из словаря P связаны с регуляцией, организацией клеточной стенки (белки с этой функцией доминируют)..