Банк EMBL





1. Сравнение разных записей в EMBL

С помощью SSH клиента PuTTY на kodomo-count.cmm.msu.ru, используя команду entret sw:P04036 -auto для белка DAPB_ECOLI был извлечен файл, в котором была обнаружена информация о записях в EMBL. По базе данных одним запросом "((([embl-AccNumber:M10611*] | [embl-AccNumber:D10483*]) | [embl-AccNumber:U00096*]) | [embl-AccNumber:J01597*]) " 
была выведена на экран информация, предоставленная в таблице ниже.

 

Идентификатор записи EMBL Тип молекулы
Класс данных
Раздел EMBL
Дата создания
документа
Описание
Длина последовательности
U00096 Геномная ДНК
(genomic DNA)
стандартный (STD) прокариоты
(PRO)
23 февраля 2006 полный геном Escherichia coli MG1655 4639675
AP009048
Геномная ДНК
(genomic DNA)
стандартный (STD) прокариоты
(PRO)
22 января 2006 полный геном Escherichia coli W3110 DNA 4646332
J01597 Геномная ДНК
(genomic DNA)
стандартный (STD) прокариоты
(PRO)
21 февраля 1991 гены, кодирующие  Карбонил-фосфат синтетазу субъединицы А (carA) и карбонил-фосфат синтетазу субъединицы В (carB) 
 Escherichia coli
(complete sds)
***подозрительно, не так ли***
5227
M10611
Геномная ДНК
(genomic DNA)
стандартный (STD)  прокариоты
(PRO)
2 июля 1986 ген, кодирующий дигидродипиколинат редуктазу организма Escherichia coli (сomplete cds) 1281

Примечание: запись D10483 была включена в таблицу, так как, согласно самому EMBL, 20 января 2006 она была заменена AP009048, информацию о которой вы можете увидеть в таблице выше.

Среди данных БД для этих записей, выведенных по соответствующим критериям задания, отличаются для DAPB_ECOLI лишь идентификатором записи EMBL, датой создания документа, длиной последовательности и представляющим наибольшиц интерес описанием. Из которого следует, что первые две записи соответствуют полным геномам кишечной палочки, соответственно, длина последовательности, отличаются в силу того, что они принадлежат по, всей видимости, равзным штаммам. Остальные же две записи описывают конкретные гены или ген, которые кодируют рассматриваемый белок DAPB_ECOLI.


2. Сравнение описаний гена Escherichia coli в двух разных записях EMBL

С помощью команд

Последовательности, кодирующие белок DAPB_ECOLI в двух записях банка EMBL

Примечание: Интересно, что J0159 Несет информацию сразу о двух генах, во время выполнени 3го задания, я буду рассматривать тот, что по размеру наиболее приближен к гену в записи M10611. Очень подозрительная запись. Проверял 6 раз - она действительно есть в выборке. Поскольку записи были в обной выдаче, я рискну и сделаю предложение, что наиболее близкий по размерам будет обладать большей идентичностью.

В ходе проверки я выяснил, что по размеру наиболее приближена к DapB
ген CarA, нежели СarB. Ниже в таблице для записи J0159 рассматривается ген CarA.

  I II
ID записи

 J01597

M10611

Начало гена в записи  374 48
Конец гена в записи  1622 956
Направление гена  прямое прямое
Примечания*

Есть 4 ссылки на статьи. одна из них не опубликована (Lusty C.J.). Указаны авторы и названия статей.

PUBMED; 6308632. 
Nyunoya H., Lusty C.J.; 
"The carB gene of Escherichia coli: a duplicated gene coding for the large
subunit of carbamoyl-phosphate synthetase"; 
Proc. Natl. Acad. Sci. U.S.A. 80(15):4629-4633(1983). 

PUBMED; 6330744. 
Piette J., Nyunoya H., Lusty C.J., Cunin R., Weyens G., Crabeel M., 
Charlier D., Glansdorff N., Pierard A.; 
"DNA sequence of the carA gene and the control region of carAB: tandem 
promoters, respectively controlled by arginine and the pyrimidines, 
regulate the synthesis of carbamoyl-phosphate synthetase in Escherichia
coli K-12"; 
Proc. Natl. Acad. Sci. U.S.A. 81(13):4134-4138(1984). 

PUBMED; 6377309. 
Bouvier J., Patte J.C., Stragier P.; 
"Multiple regulatory signals in the control region of the Escherichia coli 
carAB operon"; 
Proc. Natl. Acad. Sci. U.S.A. 81(13):4139-4143(1984). 

Есть одна ссылка на статью. Указаны авторы и название статьи. Bouvier J., Richaud C., Richaud F., Patte J.C., Stragier P.; 
"Nucleotide sequence and expression of the Escherichia coli dapB gene";
J. Biol. Chem. 259(23):14829-14834(1984). 

Статью можно найти в PUBMED - 6094578.

Посмотрите на год создания записи - 1986. 20 лет назад. Поначалу можно было бы предположить, что данные 20-ти летней давности могли бы оказаться каким-то образом неточными. Однако запись пбновлялась в последний раз в 2004 году, что, впринципе, относительно недавно.

 
Важно! Далее идет верная информация. Объяснение ниже красным.

Примечание: Длина последовательности CarA существенно больше DapB (не говоря уже об огромной CarB). Скорее всего процент схожести будет маленьким.

Далее было сделано выравнивание с помощью программ needle и seqret. 

Identity: 543/1483 (36.6%)

Разворачивал для обоих случаев цепи - процент идентичности возростал, хотя направления генов в обоих случаях точно прямые. увеличение процента идентичности - это очень подозрительно.

Идентичность слишком мала.  Но в этом нет ошибки. На следующий день в самом первом задании при нахождении информации о записях EMBL увидел напротив записи   J01597 дословно следующее: -; NOT_ANNOTATED_CDS; А как оказывается, эта запись либо имеет какое-либо косвенное, либо вообще не имеет никакого отношения к гену, кодирующему мой белок, но есть в выдаче. Скорее всего сработал человеческий фактор. то есть ошибка в базе данных. Возможно опечатка.
 
Чтобы удостовериться я дополнительно посмотрел файл J01597.entret в надежде найти SwissProt идентификатор. я его нашел. 
"UniProtKB/Swiss-Prot:P0A6F1 и UniProtKB/Swiss-Prot:P00968 соответственно для двух белков, которые кодируют 2 гена этой записи. p04036 упоминался в DR но в CDS никак не аннотировался

Дополнительно смотрю файл dapb_ecoli.entret - DR                EMBL; J01597;-; NOT_ANNOTATED_CDS;


Была найдена ошибка в поле DR записи J01597 БД EMBL.
=>доказательство - prov.rar<=

По причине того, что PuTTy не в состоянии скачать полный геном, а кроме полных геномов и закравшейся ошибочной записи в embl ничего не было найдено, то я привел в отчете те, что удалось получить.

***Я осмелился оставить все данные, которые привели меня к нахождению несоответствия в банке EMBL, поскольку это было интересно и является частью моего небольшого исследования.

 

3. Знакомство с записью гена из эукариотического генома

Мой ген 1С7. 

Для знакомства с записью гена из эукариотического генома было предложено изучить документ EMBL с идентификационным номером BA000025 .
  • Схематичное изображение структуры транслируемых участков (изображены только первый и последний транслируемые участки):
    ген на прямой цепи: --[351040..351346]--..--[354794..355129]--->

    Сказано, что это предположительно член суперсемьи иммуноглобинов. Используется 1ая таблица генетического кода и стартовый кодон 1. ссылки на другие базы данных c идентификаторами: 

    GOA:O14931
    HGNC:19077
    UniProtKB/Swiss-Prot:O14931
  • Общее число экзонов в гене: 4

    Интронов всего три, поэтому возможностями Exel пользоваться не пришлось***
  • Длина самого длинного интрона: 2553
    длина самого короткого интрона: 149
  • Длина самого длинного экзона: 344
    длина самого короткого экзона: 107

*** Расстояния между экзонами: 306,344,107,335 
Между интронами: 2553, 149, 295