Задание 7

  1. Знакомство с терминологией GO
    1. Описание функции белка с помощью аннотации Gene Ontology
    2. Описание функции белка AROE_Ecoli в соответствии с GO-аннотацией

        Онтология GO (название словаря) Количество разных ассоциированных терминов GO Функция белка
      (краткое описание, близкое к тексту определения термина(ов) GO
      Где? Клеточный компонент 1

      Цитоплазма

      Зачем, для чего? Биологический процесс 4

      1. клеточный процесс аминокислотного биосинтеза

      2. снижение кислотности

      3. метаболический процесс

      4. процесс биосинтеза ароматического семейства аминокислот

      Молекулярный механизм? Молекулярные фукнции 3

      1. шикимат-5-дегидрогеназная активность - катализ реакции: shikimate + NADP+ = 5-dehydroshikimate + NADPH + H+

      2. каталитическая активность - катализ биохимической реакции при физиологических температурах

      3. оксидоредуктазная активность - катализ окислительно-восстановительной реакции (ОВР)

      Специфичность? Молекулярные фукнции 3

      1. НАДФ или НАДФН связывающая активность - селективное или нековалентное взаимодействие с НАДФ(Н) (кофермент участвующий во многих реакциях ОВ и биоситеза)

      2.белок связывающая активность - селективное или нековалентное взаимодействие с любым протеином или белком (комплексами)

      3. связывание - любое взаимодействие с молекулой, имеющей один и более специфических мест связывания с другой молекулой.

    3. Описание термина GO
    4. Описание терминов GO

      GO ID выбранного термина Список синонимов Список ближайших родительских терминов GO с указанием типа связи Список ближайших дочерних терминов GO с указанием типа связи

      GO:0005737

      (граф)

      -
      IS A GO:0044424 intracellular part
      IS A GO:0045495 pole plasm
      IS A GO:0016528 sarcoplasm
      PART OF GO:0044444 cytoplasmic part
       

      GO:0004764

      (граф)

      5-dehydroshikimate reductase activity 5-dehydroshikimic reductase activity dehydroshikimic reductase activity
      DHS reductase activity
      shikimate oxidoreductase activity
      shikimate:NADP(+) 5-oxidoreductase activity
      shikimate:NADP(+) oxidoreductase activity
      IS A GO:0016616 oxidoreductase activity, acting on the CH-OH group of donors, NAD or NADP as acceptor
      -

      GO:0008652

      (граф)

      amino acid biosynthetic processcellular amino acid anabolism cellular amino acid biosynthesicellular amino acid formationcellular amino acid synthesis
      IS A GO:0009309 amine biosynthetic process
      IS A GO:0006520 cellular amino acid metabolic process
      IS A GO:0046394 carboxylic acid biosynthetic process
      ISA GO:0000097 sulfur amino acid biosynthetic process
      ISA GO:0009067 aspartate family amino acid biosynthetic process
      ISA GO:0009070 serine family amino acid biosynthetic process
      ISA GO:0009073 aromatic amino acid family biosynthetic process
      ISA GO:0009076 histidine family amino acid biosynthetic process
      ISA GO:0009079 pyruvate family amino acid biosynthetic process
      ISA GO:0009082 branched chain family amino acid biosynthetic process
      ISA GO:0009084 glutamine family amino acid biosynthetic process
      ISA GO:0046437 D-amino acid biosynthetic process
      ISA GO:0046656 folic acid biosynthetic process
      ISA GO:0006592 ornithine biosynthetic process
      ISA GO:0019483 beta-alanine biosynthetic process
      ISA GO:0071524 pyrrolysine biosynthetic process
      ISA GO:0043102 amino acid salvage

  2. Оценка качества функциональной аннотации белков в UniProt
    1. Определение числа реальных и гипотетических белков из Коровы (domestic cow, Bos taurus (вид), NCBI_TaxID:9913)
    2. Соотношение между реальными и гипотетическими белками из Bos taurus (по данным UniProt)

        Количество в UniProt Количество в UniRef100
      Существование белка доказано экспериментально 1351 1361
      Известны только соответствующие транскрипты 11846 11663
      Гипотетический белок, предсказан по гомологии 882 952
      Иные предсказанные гипотетические белки 1514 1353

      Большинство белков исследовано на соответсвующих транскриптах, следующее большинство доказано экспериментально.

      Радует, что нет ни одного белка, существование которого недостоверно и то, что совсем немного из существующих в БД белков основаны на предсказаниях.

      Данные в UniProt и UniRef100 отличаются, но не сильно, что возможно объяснить повторением белков.

    3. Определение качества функциональной аннотации в UniProt
    4. Запрос для БД UniProt/Swiss-prot (пришлось сравнивать данные относительно этой БД, так как для UniProt страничка с запросом не загружалась):
      NCBI_TaxID 9913
      ProteinExistence 1: evidence at protein level|2: evidence at transcript
      DBxref_ GO:&P:&F:&C:&(EXP:|IDA:|IPI:|IMP:|IGI:|IEP:)

      На этих условиях наход?тся 121 запись. А в UniProt/Swiss-prot всего 1057 белков, существование которых доказано экспериментально. Это говорит о том, что только 121 белок полностью проаннотирован и записи его достоверны. Что составляет только 11% от ??????? в UniProt/Swiss-prot. ?? ???? ????????? ????? ??????? ?????, ??? ????? ???? ????????? ????????? ????????????????? ??????.

  3. Использование GO для работы с массовыми данными
    1. Получение выборки последовательностей белков с заданной функцией
    2. гликолиз - glycolysis - GO:0006096 - Биологический процесс - ([uniprot-NCBI_TaxId:9913] & [uniprot-DBxref_:GO:0006096]) - 53 - файл

      русское название функции - перевод его на английский - выбранный GO ID - словарь, к которому он относится - запрос к SRS - количество находок - находки в виде файла с последовательностями в формате FASTA

    3. Определение главной функции в большом списке белков
    4. В отчете приведите самые перепредставленные в выборке термины GO, укажите к каким онтологиям они относятся. В кратком резюме поясните, белки с какими функциями доминируют в выборке.

      Для выполнения задания я взял? файл P15770.txt со списком AC различных белков, включающих AROE_Ecoli.

      В поле Group IDs был подгружен выданный файл

      На GOstat был введёны следующие параметры:
      Available GO gene-association databases & commonly used gene collections: goa_uniprot;
      Maximal p-value in GO output list: 0.01.

      Остальные параметры не менялись.

      Был получен список терминов GO в порядке возрастания P-value (чем ниже P-value, тем ниже вероятность, что частота термина GO близка к его частоте в случайной выборке терминов):

        GO ID p-value
        GO:0050661 1.46e-18
        GO:0005515 1.89e-13
        GO:0005886 1.01e-10
        GO:0019752 5.66e-09
        GO:0006082 6.38e-09
        GO:0016616 2.42e-06
        GO:0050662 3,00E-06
        GO:0005624 3,00E-06
        GO:0000267 3.19e-06
        GO:0016614 4.44e-06
        GO:0044464 7.07e-06
        GO:0008652 2.64e-05
        GO:0009309 3.84e-05
        GO:0044271 3.84e-05
        GO:0019520 5.1e-05
        GO:0019521 5.1e-05
        GO:0006807 0.000169
        GO:0048037 0.000416
        GO:0051536 0.00052
        GO:0051540 0.00052
        GO:0009308 0.000531
        GO:0006520 0.000546
        GO:0042597 0.000546
        GO:0006519 0.000776
        GO:0044249 0.000897
        GO:0030313 0.000937
        GO:0044462 0.000937
        GO:0004764 0.000937
        GO:0009066 0.00191
        GO:0030312 0.00238

      Из этой таблицы видны резкие скачки между 1-2-3 строчками. Это означает, что термины GO:0050661 и GO:0005515 являются наиболее достоверными.

      Они имеют следующие параметры:

      - GO:0050661 - molecular function - NADP or NADPH binding - Селективные и нековалентыне взаимодействия с НАДФ, который явяется коферментом в множестве ОВ и биосинтетических реакциях.

      - GO:0005515 - molecular function - protein binding - селективное или нековалентное взаимодействия с каким-либо белком или белковым комплексом (причём комплекс может включать не белковые компоненты).

      Понятно, что доминирует функция связывания. Также можно предположить, что связывание для последующей реакции окисления или биосинтеза белков.


      © 2010 Borisova Marina