Дополнительные задания


Описание связей между терминами в онтологиях GO

Все термины GO, ассоциированные с записью UniProt Q46857, находятся во взаимосвязях, которые представлены в виде графа в БД GOA. На этом графе не оказалось термина, имеющего более 2-х связей с родительскими терминами, так как граф строился всего для трех терминов. Но есть термины, связанные с двумя родительскими, например вот этот:

У этого термина 2 связи с родительскими, так как биосинтез L-аскорбиновой кислоты является с одной стороны частным случаем метаболизма L-аскорбиновой кислоты, а с другой стороны частным случаем биосинтеза водорастворимых витаминов. В данном случае каждый родительский термин обобщает одно из двух слов: "биосинтез" (обобщение - "метаболизм") или "L-аскорбиновая кислота" (обобщение - "водорастворимый витамин"). А обобщение обоих слов ("метаболизм водорастворимых витаминов") будет уже родительским термином по отношению к этим двум:

На графе представлены два типа связей:
  1. связь типа "is a"

    Эти 2 термина соединены такой связью потому, что дидегидроглюконатредуктазная активность является частным случаем(частный случай обладает всеми свойствами целого, но еще обладает некими характерными свойствами, уточняющими общее понятие) оксидоредуктазной активности, воздействующей на связь CH-OH
  2. связь типа "is part of a"

    Эти 3 термина соединены такими связями потому, что и биологические процессы, и молекулярные функции являются частью онтологии генов (часть сама по себе не обладает всеми свойствами целого)

Также отличия части и частного случая заключаются в том, что для получения целого из "частных случаев" у них выделяются все общие свойства, которые и приписываются целому, а при получении целого из "частей" их свойства складываются. Таким образом, из "частных случаев" целое получается пересечением, а из "частей"- объединением.

Исследование качества аннотации группы белков в UniProt

Группа белков - белки коплекса Гольджи Plasmodium falciparum. Их общее число было определено с помощью следующего запроса в SRS:

((([uniprot-Species:Plasmodium*] & [uniprot-Species:falciparum*]) | [uniprot-Species:Plasmodium falciparum*]) & (([uniprot-DBxref_:GO*] & [uniprot-DBxref_:C:*Golgi*]) | [uniprot-DBxref_:GO C:*Golgi*]))
Таких белков всего 5. После этого я записала в один файл содержание поля DBxref для всех этих белков. Для этого необходимо было перед поиском с помощью SRS выбрать поле записей DBxref для выдачи и указать Display as List(иначе повторяющиеся коды доказательств опускаются). После этого надо было сохранить все полученные записи (save with view: UNIPROT) в файл. В нем с помощью программы grep я искала сначала строку GO: (количество аннотаций GO).
grep -c GO: 5pr.txt

Всего было найдено 17 аннотаций для этих 5 белков. Далее требовалось определить количество "чисто компьютерных" аннотаций, т.е. аннотаций с "чисто компьютерными" доказательствами. На мой взгляд, таких доказательств всего 2 - IEA и ISS(электронная аннотация и аннотация на основе сходства структур и/или последовательностей). Все остальные доказательства либо экспериментальные, либо вообще ни компьютерные, ни экспериментальные (например, NAS или IC). Поэтому я искала среди выбранной группы аннотации, у которых все доказательства функций либо ISS, либо IEA:
grep -c IEA: 5pr.txt
grep -c ISS: 5pr.txt

Аннотаций функций с доказательствами IEA было 17, а с доказательствами ISS - 0. Значит 100% всех аннотаций для этой группы белков IEA, т.е. "чисто компьютерные".
На страницу обязательных упражнений
На страницу 4-го семестра

© Моросанова Мария