Функции генов и их продуктов. Онтологии, GO


Общее знакомство со структурой GO

Результаты упражнения 1 (исходный белок - CLCA_ECOLI):

  1. Ключевое слово: Ion transport (ионный транспорт)
  2. Идентификатор GO: GO:0006811
  3. Синонимов нет
  4. Определение термина (в переводе на русский): прямое движение заряженных атомов или небольших заряженных молекул из клетки, в клетку или между клетками.
  5. Количество родителей: один родитель (is_a).
  6. Количество дочерних терминов: отсутствуют.

is_a означает, что дочерний термин является обязательной частью родительского теримна, а part_of - дочерний термин может быть частью родительского.

Граф можно посмотреть здесь.









Создание выборок белков с определенными функциями (поиск по идентификаторам GO в БД UniProt с помощью SRS)

Моя конкретная задача - исследовать качество аннотации функции у белков из ЭПР рыбы Данио Регио (Danio rerio).

Для этого была составлена следующая таблица:

 
Количество белков Запрос
Всего 14861  (([uniprot-Organism:Danio*] & [uniprot-Organism:Rerio*]) | [uniprot-Organism:Danio Rerio*])
С идентификаторами всех 3-х онтологий GO  13385  ((([uniprot-Organism:Danio*] & [uniprot-Organism:Rerio*]) | [uniprot-Organism:Danio Rerio*]) & (([uniprot-DBxref_:F*] | [uniprot-DBxref_:C*]) | [uniprot-DBxref_:P*]))
В том числе из ЭПР  98  ((([uniprot-Organism:Danio*] & [uniprot-Organism:Rerio*]) | [uniprot-Organism:Danio Rerio*]) & (([uniprot-DBxref_:C:endoplasmic*] & [uniprot-DBxref_:reticulum*]) | [uniprot-DBxref_:C:endoplasmic reticulum*]))
В том числе только с самыми хорошими доказательствами функции (TAS или IDA)  1   (((([uniprot-Organism:Danio*] & [uniprot-Organism:Rerio*]) | [uniprot-Organism:Danio Rerio*]) & (([uniprot-DBxref_:C:endoplasmic*] & [uniprot-DBxref_:reticulum*]) | [uniprot-DBxref_:C:endoplasmic reticulum*])) & (((((((([uniprot-DBxref_:TAS*] | [uniprot-DBxref_:IDA*]) ! [uniprot-DBxref_:IMP*]) ! [uniprot-DBxref_:IGI*]) ! [uniprot-DBxref_:IPI*]) ! [uniprot-DBxref_:ISS*]) ! [uniprot-DBxref_:IEP*]) ! [uniprot-DBxref_:NAS*]) ! [uniprot-DBxref_:IEA*]))
В том числе только с самыми плохими доказательствами функции (IEA)  93 (((([uniprot-Organism:Danio*] & [uniprot-Organism:Rerio*]) | [uniprot-Organism:Danio Rerio*]) & (([uniprot-DBxref_:C:endoplasmic*] & [uniprot-DBxref_:reticulum*]) | [uniprot-DBxref_:C:endoplasmic reticulum*])) & (((((((([uniprot-DBxref_:IEA*] ! [uniprot-DBxref_:IDA*]) ! [uniprot-DBxref_:IMP*]) ! [uniprot-DBxref_:IGI*]) ! [uniprot-DBxref_:IPI*]) ! [uniprot-DBxref_:ISS*]) ! [uniprot-DBxref_:IEP*]) ! [uniprot-DBxref_:NAS*]) ! [uniprot-DBxref_:TAS*]))

В качестве вывода, наблюдая полученные данные, можно сказать, что качество аннотации низкое, ибо подавляющее большинство белков имеют самое плохое доказательство функции (IEA), которому нельзя сразу верить, а необходимо проверить предложенную в этой аннотации информацию.

На главную...


© Трушкин Никита,2006