Функции генов и их продуктов.


  1. Описание связей между терминами в онтологиях GO.

    Были рассмотрены термины, тем или иным образом относящиеся к белку AAT_ECOLI. Связи между терминами в GO наглядно иллюстрируются с помощью ориентированного ациклического графа (DAG, Directed Acyclic Graph), конкретный примаер, ассоциированный с AAT_ECOLI см. здесь. Вершинами этого графа служат термины, а ребрами - связи между ними; существует два типа связей - is_a и is_part_of. Непосредственно на графе они отличаются цветом ребра: связи типа is_a соответствует черное ребро, а связи типа is_part_of - красное. Рассмотрим каждый тип связи по отдельности на примере графа, полученного для терминов, ассоциированных с определенными белками.

    Связь is_a. Запись A_is_B означает, что A - частный случай B. Связь is_a указывает на отношения родства между терминами, связывает родительские и дочерние понятия (отношения типа класс-подкласс). Подавляющее большинство терминов на нашем графе связаны друг с другом именно с помощью is_a (черные ребра). Как пример можно привести отношения "protein binding is binding" или "biosynthetic process is metabolic process", "aspartate transaminase activity is transaminase activity". Ниже приведен фрагмент графа, иллюстрирующий первый из названных примеров:

    Кажется понятным, почему названные пары терминов связаны отношением is_a. В каждой паре одно понятие - частный случай другого: связывание белков (protein binding) - частный случай связывания вообще (binding); биосинтетические процессы - частный случай метаболических процессов и т.п.

    Связь is_part_of. Данный тип связи на нашем графе почти не встретился, во всяком случае между терминами, прямо относящимися к белку AAT_ECOLI. Исключение составляют связи терминов, служащих названиями онтологий GO (cellular component, molecular function и biological process), с "заглавным" термином Gene Ontology. Однако эта связь, на наш взгляд, не очень наглядно отражает сущность взаимоотношений "is_part_of" поэтому для понимания этой сущности поищем другой пример. Получим подобный граф для терминв, ассоциированных с белком LIN10_CAEEL, найденным нами в третьем обязательном задании. Полный граф можно увидеть здесь; этот граф более сложный, чем предыдущий, и в между его вершинами есть множество связей "is_part_of". Все эти связи являются нагляднейшими примерами взаимоотношения "is_part_of", к примеру "cell part is part of cell" или "cytoplasmic part is part of cytoplasm". В аннотации к Gene Ontology находим определение связи типа is_part_of: если C is_part_of D, то C в любом случае является частью D, но D может существовать и без C. Как видим, наши примеры подходят под приведенное определение: часть клетки (компартмент или органелла) не способна в природе существовать без (вне) клетки, хотя встречаются клетки без некоторых частей (ядра, ЭПР и т.п.)

    Приведем иллюстрацию:

    Известно, что связь is_part_of - более слабая, чем is_a, грубо говоря, явление или понятие, определяемое родительским термином, может существовать без дочернего (на занятии приводился пример того, что аэробное дыхание может существовать и в обход цикла Кребса).

    Множественные связи На графах GO от большинства вершин отходит множество ребер, то есть многие термины связаны не с одним или двумя, а с бОльшим количеством других терминов, как родительских, так и дочерних. Проиллюстрируем сказанное примером из второго графа, ассоциированного с LIN10_CAEEL:

    Здесь термин "intracellular organelle part" связан с тремя родительскими терминами; при этом две из трех связей относятся к типу is_a, а одна - is_part_of.

    Следует заметить, что связи существуют только между терминами отдельных онтологий, структура GO не предполагает взаимоотношений между онтологиями.

  2. Работа с БД EcoCyc.

    См. последнюю графу таблицы из второго обязательного упражнения.
    Здесь можно увидеть копию страницы, с которой были взяты данные, использовавшиеся при работе с EcoCyc.

    Как видно из таблицы, данные EcoCyc существенно дополняют и разъясняют термины GO. Плюсы EcoCyc в нашем случае следующие:

    1. Указана локализация белка в клетке
    2. Много информации о субстратной специфичности фермента, о природе кофактора (есть ответ на вопрос "с чем?")
    3. Дано достаточно развернутое описание механизма работы фермента (ответ на вопрос "каким образом?")

    Минус у EcoCyc по сравнению с GO один: гораздо менее выраженная структурированность. Иногда не очень ясно, к какой группе относить те или иные данные, например, к механизму или к функции.

    Здесь следует заметить, что сравнение GO с EcoCyc в нашем случае не до конца равноправное, поскольку аннотация EcoCyc представляет и названия терминов, и их описание на одной странице, тогда как GOA дает отдельно перечень терминов, отдельно можно посмотреть определение каждого из них. Перечень терминов GO, с которым мы работали, сильно структурирован, но малоинформативен. Библиотека ECoCyс, напротив, дает больше конкретных данных, но их структура не так удобна как в GO.

  3. Исследование качества аннотации группы белков в UniProt

    Будем исследовать белки аппарата Гольджи из C.elegans. По данным аннотации кодов доказательств , приведенной на главном сайте консорциума GO, мы составили такую таблицу:

    Таблица 1. Характеристика кодов доказательств GO.

    Исключительно
    "экспериментальные" коды
    Исключительно
    "компьютерные" коды
    Остальные коды
    IDA IEA IC
    IGI IGC IEP
    IMP ISS NAS
    IPI RCA ND
        NR
        TAS

    Согласно приведенной классификации проведем поиск по БД UniProt. Наша цель - оценить долю "чисто компьютерных" аннотаций среди всех аннотаций заданной группы белков. Сначала определимся, что же такое аннотация GO. Аннотацией можно назвать как совокупность терминов GO, связанных с определенным геном или продуктом, так и отдельный такой термин. При выполнении этого задания удобнее использовать второе определение: аннотация - это отдельный термин GO, ассоциированный с геном или генным продуктом (в нашем случае белком). Каждая аннотация, таким образом, имеет код обоснования, - один из тех, что приведены в таблице. Такие коды указывают на источник данных, приводимых в аннотации, и косвенно характеризуют достоверность этих данных. Наиболее достоверны данные, полученные в результате прямого эксперимента. Аннотации, сделанные с помощью компьютера, делятся на несколько категорий. Наименее достоверны из них те, что получены чисто автоматически, без участия человека, такие аннотации получают, к примеру, код IEA (Inferred from Electronic Annotation). Другие основаны на результатах работы компьютера, проанализированных в той или иной мере человеком-куратором. Тем не менее, компьютерные аннотации как правило менее достоверны, чем экспериментальные (идентификаторы компьютерных аннотаций в стандартной классификации считаются "средними по качеству" или даже "плохими"), и поэтому превалирование первых над вторыми нежелательно. К сожалению, для большинства протеомов и геномов различных организмов (кроме наиболее изученных, таких как E.coli) ситуация с аннотированием пока обстоит именно так. Мы при выполнении этого задания попытаемся узнать, насколько хорошо аннотирована определенная группа белков - белки аппарата Гольджи C.elegans, для чего выясним долю компьютерных аннотаций среди всех аннотаций, существующих для этой группы.

    Для выполнения поставленной задачи сначала воспользовались поисковой системой SRS, при помощи которой искали в UniProt записи, содержащие информацию о белках аппарата Гольджи C.elegans, с идентификаторами всех трех онтологий GO. Запрос имел следующий вид: ((([uniprot-Organism:Caenorhabditis*] & [uniprot-Organism:elegans*]) | [uniprot-Organism:Caenorhabditis elegans*]) & (([uniprot-DBxref_:F:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:Golgi*])). В результате получили 34 записи, которые целиком сохранили в одном документе (воспользовавшись кнопкой Save и выбрав в появившемся окошке в поле "Save with view" вариант "Complete Entries"). Из полученного документа (если интересно, вот он) с помощью команды grep извлекли строки, содержащие сочетание знаков "GO:" и перенаправили выход в отдельный документ GO.txt, с которым и работали впоследствии. С помощью grep с опцией -с посчитали количество строк в GO.txt, содержащих различные коды доказательств: "компьютерные" и "экспериментальные" (см. таблицу). Выход программы для каждого кода перенаправляли в конец отдельного документа (в котором уже находились текстовые обозначения соответствующих кодов - чтобы потом не ошибиться в интерпретации полученных чисел). Для выполнения всех описанных действий с grep был написан скрипт следующего вида:

    grep GO: all.txt > GO.txt 
    grep -c GO: GO.txt >>Summary.txt
    grep -c IEA: GO.txt >> Summary.txt
    grep -c IGC: GO.txt >> Summary.txt
    grep -c ISS: GO.txt >> Summary.txt
    grep -c RCA: GO.txt >> Summary.txt
    grep -c IDA: GO.txt >> Summary.txt
    grep -c IGI: GO.txt >> Summary.txt
    grep -c IMP: GO.txt >> Summary.txt
    grep -c IPI: GO.txt >> Summary.txt  
    

    В результате работы скрипта получаем документ Summary.txt с необходимыми нам величинами: общим числом аннотаций GO для данной группы белков и числами аннотаций с каждым отдельным кодом данных. Этот документ был импортирован в Excel и на основании полученных чисел была построена круговая диаграмма, иллюстрирующая долю компьютерных и экспериментальных аннотаций среди всех аннотаций GO (из трех онтологий) для белков аппрата Гольджи C.elegans.

    Хотя мы исследовали не все коды (наш скрипт не позволяет получать информацию о числе записей с кодами TAS, NAS и другими из третьей колонки таблицы), получилось, что были охвачены все записи. Значит аннотации GO, касающиеся нашей группы белков, основаны либо исключительно на экспериментальных данных, либо исключительно на "компьютерных". Как видно из диаграммы, последние играют при аннотации белков аппарата Гольджи C.elegans гораздо более важную роль (IEA+ISS = 86%+9%=95% аннотаций имеют "компьютерную" природу). Заметим, однако, что нематода C.elegans - один из наиболее интенсивно изучаемых экспериментально организмов. Конечно, можно сказать, что белки комплекса Гольджи исследованы в меньшей степени, чем, скажем, гистоны, однако даже при этом допущении недостаток экспериментальных данных, судя по аннотациям (5 процентов против 95 процентов "компьютерных"), очень большой.

    Следует еще отметить неравномерное распределение результатов между разными компьютерными кодами. Громадное большинство (126 из 139, все расчеты смотрите здесь) компьютерных аннотаций отмечено кодом IEA, то есть соответствующие данные получены чисто автоматически, без участия человека, что никак не может радовать, так как достоверность подобных данных очень низка. Оставшиеся 13 аннотаций отмечены кодом ISS, который также не является самым предпочтительным при оценке достоверности. Среди 146 исследованных не было ни одной аннотации с самым надежным из всех "компьютерных" кодов RCA.

    Итого:

    1. При аннотации белков протеома Caenorhabditis elegans используются главным образом данные, полученные с помощью компьютера (95%); количество экспериментальных данных крайне мало (5%), все они основаны на информации WormBase.
    2. Большинство "компьютерных данных" получены автоматически без участия человека-куратора, что еще более снижает их достоверность и значимость.



©Ганчарова Ольга