Банк нуклеотидных последовательностей EMBL

Cправка о EMBL

:
База данных нуклеотидных последовательностей Европейской молекулярно-биологической лаборатории пополняется большей частью непосредственно авторами, определившими первичную структуру фрагмента ДНК или РНК и, кроме последовательности нуклеотидов, содержит разнообразную информацию о каждом фрагменте, включая литературные ссылки, перекрестные ссылки на документы других баз данных, таблицы особенностей и др. Существует с 1982 года. База данных - продукт сотрудничества консорциума, состоящего из EMBL ( Германия), GenBank (США) и DDJP (Япония), каждый из членов которого собирает свою порцию информации из всех доступных источников, ежедневно обмениваясь новыми и обновленными документами друг с другом. Удобна своей географической близостью для доступа на территории Европы. В России на сайте Института физико-химической б иологии им. А.Н. Белозерского хранится регулярно обновляемая копия (зеркало) базы (http://www.genebee.msu.su/).

Пользуясь системой SRS (http://srs.ebi.ac.uk/), вкладкой "Library Page" и далее гиперссылке "EMBL (release)" можно определить дату последнего проиндексированного в системе релиза EMBL и количество записей в нём.
Текущий релиз EMBL содержит 92831733 записей ,согласно индексации от 5 сентября 2008 года.
Состояние релиза можно посмотреть здесь .

Список классов ("Data Class") банка EMBL.

Обозначение класса.	Описание класса .	Кол-во проиндексированных записей.
ANN	Constructed sequence with annotation	-
CON	Constructed sequence	-
EST	Expressed Sequence Tag	54868004
GRV	Genome Reviews	-
GSS	Genome Survey Sequence	24420981
HTC	High Throughput cDNA sequencing	524114
HTG	High Throughput Genome sequencing	135664
MGA	Mass Genome Annotation	-
PAT	Patent	6175434
SET	Project set (EMBL WGS Masters only)	-
STD	Standard	5752704
STS	Sequence Tagged Site	945908
TPA	Third Party Annotation	5919
TSA	Transcriptome Shotgun Assembly	3005
WGS	Whole Genome Shotgun	-

Данные можно получить: "Library Page" ===> "EMBL (release)" ===> в списке полей "Data Class"(название классов) ===>"List values"(Кол-во записей.)

Cписок разделов ("Divisions") банка EMBL .

Обозначение раздела.	Описание раздела.	Кол-во проиндексированных записей.
ENV	Environmental Samples (Примеры из окружающей среды)	3614899
FUN	Fungi (Грибы)	2524681
HUM	Human (Человек)	11540219
INV	Invertebrates (Беспозвоночные)	13679938
MAM	Other Mammals (Другие млекопитающиеся)	8686059
MUS	Mus musculus (Геном мыши,аббревиатурное обозначение)	7330487
PHG	Bacteriophage <Бактериофаги>	4896
PLN	Plants (Растения)	28334269
PRO	Prokaryotes(Прокариоты)	675972
ROD	Rodents (Грызуны)	1804253
SYN	Synthetic(Искусственно синтезированные.)	1500620
TGN	Transgenic (Трансгенные)	265445
UNC	Unclassified (Неклассифицированные)	2956530
VRL	Viruses(Вирусы)	624900
VRT	Other Vertebrates(Другие позвоночные)	9288565

Были выбраны четыре раздела банка EMBL (FUN ,HUM, ENV и PRO) и определено сколько стандартных (класса STD) записей появилось в каждом из этих разделов за октябрь 2008 года и за тот же месяц 2007 года.
Результаты представлены в виде столбчатой диаграммы.

Наибольший по кол-ву записей - раздел ENV, причем снижение поступление записей в 2008 году незначительное. Это объясняется тем, что в данном разделе лежат записи кусочков длины в среднем от 200 до 1500 , т.е не полная информация о последовательности, для организмов из которых ее сложно извлекать.
Довольно мало записей о геноме человека и с каждым годом становиться все меньше. Это объясняется тем, что "бум" на сознание записей связанных с ДНК человека уже прошел и добавлять что-то новое теперь все сложнее.
Примерно одинаковое кол-во записей о грибах и эукариотах и наблюдается повышение поступления информации. Это можно объяснить тем, что ввиду многообразия этих групп неизученного материала , с одной стороны , мало, с другой, усовершенствуются способы секвенирования и получения информации.
Краткая характеристика гена LTA.
Направление гена относительно направления, выбранного для записи : обратное
Число кодирующих участков :3
Длина первого кодирующуго участка : 413
Длина последнего кодирующего участка: 99seB
Длина первого интрона : 247
Длина последнего интрона : 86
Для вырезания учаска из файла EMBL :
1. Находясь на kodomo-count запустить команду seqret -sask
2. На запрос "intup (gapped) sequence" ввести имя входного файла EMBL (BA000025.embl)
3. На запрос "Begin at position [start]: " и "End at position [end]:"
ввести координаты начала и конца искомого учаска (в данном случае самый длинный экон
это 1 часток в CDS, сооствтсвенно координаты 370333 и 370745 .)
4.На запрос " Reverse strand " я ввела "y",т.к участок лежит на обратной цепи.
5.Задать имя выходного файла.
6. Зайдти на страницу http://blast.ncbi.nlm.nih.gov/.
7.Пойти по ссылке blastX .
8. ввести полученный верезанный участок и задать поиск по Swiss-Prot.

Первый найденный белок имеет e-value= 2e-75 ,выделен из человека и имеет идентификатор PO1374.
Что соответствует записи embl :" /db_xref="UniProtKB/Swiss-Prot:P01374" .
В искомом белке данный экзон кодирует соответственно с 70 по 205 аминокислоту. Причем с 77 по 205 кислоту располагается единственный домен TNF данного белка.

Таким образом по самому длинному экзону гена удалось определить какой белок кодируется всем геном. При этом выбранный экон кодирует доменную последовательность белка,т.е достаточно стабильную и независимую подструктуру белка.

В записи Swiss-Prot, описывающей белок P0A7E1 были взяты все ссылки на банк EMBL.

(Для этого запись Swiss-Prot была извлечена программой entret : entret sw:P0A7E1 -auto.
Далее из поля DR извлечена информация о ссылках на EMBL.

Для дальнейшего заполнения таблицы информацию нужно получать так:
На страничке "Library page" поставить галочку против EMBL, затем нажать кнопку "Standard Query Form". Поиск вести по полю "Accession number", пользуясь логическим оператором "ИЛИ".
Создайть один запрос, позволяющий сразу получить всю нужную информацию можно выделив в окошке "Choose 1 or more fields" при помощи клавиши <Ctrl> интересующие поля: ID, Molecule, Data class, Division, Sequence Length, Entry Creation Date, Description. Сохранить результаты поиска в виде таблицы при помощи кнопки "Save". )

Идентификатор записи EMBL	Тип молекулы	Класс данных	Раздел EMBL	Длина последовательности документа	Дата создания	Описание Дата создания
AP009048	genomic DNA	STD	PRO	4646332	22-JAN-2006	Escherichia coli W3110 DNA, complete genome.
U00096	genomic DNA	STD	PRO	4639675	23-FEB-2006	Escherichia coli str. K-12 substr. MG1655, complete genome.
X02826	genomic DNA	STD	PRO	1357	07-NOV-1985	E. coli pyrD gene for dihydroorotate dehydrogenase (EC 1.3.3.1)

Вся три записи имеют одинаковый тип молекулы - ДНК, класс данных -стандартный, раздел - прокариоты. Различаются даты создания, описания - 2 записи это полные геномы разных штаммов Е.соli, третья последовательность гена дигидрооротат дигидрогеназы .Соответственно длина записей(AP009048,U00096) содержащих полные геном значительно длиннее и они были созданны относительно недавно, в отличии от записи X02826.

Главная страница Третий семестр