1. Сравнение разных записей в EMBL
С помощью SSH клиента PuTTY на kodomo-count.cmm.msu.ru, используя команду entret sw:P04036 -auto для белка DAPB_ECOLI был извлечен файл, в котором была обнаружена информация о записях в EMBL. По базе данных одним запросом
"((([embl-AccNumber:M10611*] | [embl-AccNumber:D10483*]) |
[embl-AccNumber:U00096*]) | [embl-AccNumber:J01597*]) "
была выведена на экран информация, предоставленная в таблице ниже.
Идентификатор записи EMBL
|
Тип молекулы
|
Класс данных
|
Раздел EMBL
|
Дата создания
документа |
Описание
|
Длина последовательности
|
U00096 |
Геномная ДНК
(genomic DNA) |
стандартный (STD) |
прокариоты
(PRO) |
23 февраля 2006 |
полный геном
Escherichia coli MG1655 |
4639675 |
AP009048
|
Геномная ДНК
(genomic DNA) |
стандартный (STD) |
прокариоты
(PRO) |
22 января 2006 |
полный геном
Escherichia coli W3110 DNA |
4646332 |
J01597 |
Геномная ДНК
(genomic DNA) |
стандартный (STD) |
прокариоты
(PRO) |
21 февраля 1991 |
гены,
кодирующие Карбонил-фосфат
синтетазу субъединицы А (carA) и
карбонил-фосфат синтетазу
субъединицы В (carB)
Escherichia coli
(complete sds)
***подозрительно, не так ли*** |
5227 |
M10611
|
Геномная ДНК
(genomic DNA) |
стандартный (STD) |
прокариоты
(PRO) |
2 июля 1986 |
ген,
кодирующий дигидродипиколинат
редуктазу организма Escherichia coli (сomplete cds) |
1281 |
Примечание: запись D10483 была
включена в таблицу, так как, согласно самому
EMBL, 20 января 2006 она была заменена AP009048,
информацию о которой вы можете увидеть в
таблице выше.
Среди данных БД для этих
записей, выведенных по соответствующим
критериям задания, отличаются для DAPB_ECOLI
лишь идентификатором записи EMBL, датой
создания документа, длиной
последовательности и представляющим
наибольшиц интерес описанием. Из которого
следует, что первые две записи
соответствуют полным геномам кишечной
палочки, соответственно, длина
последовательности, отличаются в силу того,
что они принадлежат по, всей видимости,
равзным штаммам. Остальные же две записи
описывают конкретные гены или ген, которые
кодируют рассматриваемый белок DAPB_ECOLI.
2. Сравнение описаний гена Escherichia
coli в двух разных записях EMBL
С помощью команд Последовательности, кодирующие белок
DAPB_ECOLI в двух записях банка EMBL
Примечание: Интересно, что J0159
Несет информацию сразу о
двух генах, во время
выполнени 3го задания, я буду рассматривать
тот, что по размеру наиболее приближен к
гену в записи M10611. Очень подозрительная
запись. Проверял 6 раз - она действительно
есть в выборке. Поскольку записи были в
обной выдаче, я рискну и сделаю предложение,
что наиболее близкий по размерам будет
обладать большей идентичностью.
В ходе проверки я выяснил, что по размеру
наиболее приближена к DapB
ген CarA, нежели СarB. Ниже в таблице для записи J0159
рассматривается ген CarA.
|
I |
II |
ID записи |
J01597
|
M10611
|
Начало гена в записи |
374 |
48 |
Конец гена в записи |
1622 |
956 |
Направление гена |
прямое |
прямое |
Примечания* |
Есть 4 ссылки
на статьи. одна из них не опубликована
(Lusty C.J.). Указаны авторы и
названия статей.
PUBMED; 6308632.
Nyunoya H., Lusty C.J.;
"The carB gene of Escherichia coli: a duplicated gene coding for the large
subunit of carbamoyl-phosphate synthetase";
Proc. Natl. Acad. Sci. U.S.A. 80(15):4629-4633(1983).
PUBMED; 6330744.
Piette J., Nyunoya H., Lusty C.J., Cunin R., Weyens G., Crabeel M.,
Charlier D., Glansdorff N., Pierard A.;
"DNA sequence of the carA gene and the control region of carAB: tandem
promoters, respectively controlled by arginine and the pyrimidines,
regulate the synthesis of carbamoyl-phosphate synthetase in Escherichia
coli K-12";
Proc. Natl. Acad. Sci. U.S.A. 81(13):4134-4138(1984).
PUBMED; 6377309.
Bouvier J., Patte J.C., Stragier P.;
"Multiple regulatory signals in the control region of the Escherichia coli
carAB operon";
Proc. Natl. Acad. Sci. U.S.A. 81(13):4139-4143(1984).
|
Есть одна ссылка на
статью. Указаны авторы и название
статьи. Bouvier J., Richaud C., Richaud F., Patte J.C., Stragier P.;
"Nucleotide sequence and expression of the Escherichia coli dapB gene";
J. Biol. Chem. 259(23):14829-14834(1984).
Статью можно найти в PUBMED - 6094578.
Посмотрите на год
создания записи - 1986. 20 лет назад.
Поначалу можно было бы предположить,
что данные 20-ти летней давности могли
бы оказаться каким-то образом
неточными. Однако запись пбновлялась
в последний раз в 2004 году, что,
впринципе, относительно недавно.
|
Важно! Далее идет верная
информация. Объяснение ниже красным.
Примечание: Длина последовательности CarA
существенно больше DapB (не говоря уже об
огромной CarB). Скорее всего процент схожести
будет маленьким.
Далее было сделано выравнивание с помощью
программ needle и seqret.
Identity: 543/1483 (36.6%)
Разворачивал для обоих случаев цепи -
процент идентичности возростал, хотя
направления генов в обоих случаях точно
прямые. увеличение процента идентичности -
это очень подозрительно.
Идентичность
слишком мала. Но в этом нет ошибки. На
следующий день в самом первом задании при
нахождении информации о записях EMBL увидел
напротив записи J01597 дословно
следующее: -; NOT_ANNOTATED_CDS; А как оказывается,
эта запись либо имеет какое-либо косвенное,
либо вообще не имеет никакого отношения к
гену, кодирующему мой белок, но есть в
выдаче. Скорее всего сработал человеческий
фактор. то есть ошибка в базе данных.
Возможно опечатка.
Чтобы удостовериться я дополнительно
посмотрел файл J01597.entret в надежде найти SwissProt
идентификатор. я его нашел.
"UniProtKB/Swiss-Prot:P0A6F1 и UniProtKB/Swiss-Prot:P00968
соответственно для двух белков, которые
кодируют 2 гена этой записи. p04036 упоминался в DR но в CDS никак не аннотировался
Дополнительно смотрю файл dapb_ecoli.entret - DR
EMBL; J01597;-; NOT_ANNOTATED_CDS;
По причине того, что PuTTy не в состоянии скачать полный геном, а кроме полных геномов и закравшейся ошибочной
записи в embl ничего не было найдено, то я привел в отчете те, что удалось получить.
***Я осмелился оставить все
данные, которые привели меня к нахождению
несоответствия в банке EMBL, поскольку это
было интересно и является частью моего
небольшого исследования.
3. Знакомство с записью гена из
эукариотического генома
Мой ген 1С7.
Для знакомства с записью гена из
эукариотического генома было предложено
изучить документ EMBL с идентификационным
номером BA000025
.
- Схематичное изображение структуры
транслируемых участков (изображены
только первый и последний транслируемые
участки):
ген на прямой цепи: --[351040..351346]--..--[354794..355129]--->
Сказано, что это предположительно член
суперсемьи иммуноглобинов. Используется
1ая таблица генетического кода и
стартовый кодон 1. ссылки на другие базы
данных c идентификаторами:
GOA:O14931
HGNC:19077
UniProtKB/Swiss-Prot:O14931
- Общее число экзонов в гене: 4
Интронов всего три, поэтому
возможностями Exel пользоваться не
пришлось***
- Длина самого длинного интрона: 2553
длина самого короткого интрона: 149
- Длина самого длинного экзона: 344
длина самого короткого экзона: 107
*** Расстояния
между экзонами: 306,344,107,335
Между интронами: 2553, 149, 295
|