Текущий релиз EMBL содержит 92831733 записей ,согласно индексации от 5
сентября 2008 года.
Состояние релиза можно посмотреть
здесь .
Обозначение класса. | Описание класса . | Кол-во проиндексированных записей. |
ANN | Constructed sequence with annotation | - |
CON | Constructed sequence | - |
EST | Expressed Sequence Tag | 54868004 |
GRV | Genome Reviews | - |
GSS | Genome Survey Sequence | 24420981 |
HTC | High Throughput cDNA sequencing | 524114 |
HTG | High Throughput Genome sequencing | 135664 |
MGA | Mass Genome Annotation | - |
PAT | Patent | 6175434 |
SET | Project set (EMBL WGS Masters only) | - |
STD | Standard | 5752704 |
STS | Sequence Tagged Site | 945908 |
TPA | Third Party Annotation | 5919 |
TSA | Transcriptome Shotgun Assembly | 3005 |
WGS | Whole Genome Shotgun | - |
Обозначение раздела. | Описание раздела. | Кол-во проиндексированных записей. |
ENV | Environmental Samples (Примеры из окружающей среды) | 3614899 |
FUN | Fungi (Грибы) | 2524681 |
HUM | Human (Человек) | 11540219 |
INV | Invertebrates (Беспозвоночные) | 13679938 |
MAM | Other Mammals (Другие млекопитающиеся) | 8686059 |
MUS | Mus musculus (Геном мыши,аббревиатурное обозначение) | 7330487 |
PHG | Bacteriophage <Бактериофаги> | 4896 |
PLN | Plants (Растения) | 28334269 |
PRO | Prokaryotes(Прокариоты) | 675972 |
ROD | Rodents (Грызуны) | 1804253 |
SYN | Synthetic(Искусственно синтезированные.) | 1500620 |
TGN | Transgenic (Трансгенные) | 265445 |
UNC | Unclassified (Неклассифицированные) | 2956530 |
VRL | Viruses(Вирусы) | 624900 |
VRT | Other Vertebrates(Другие позвоночные) | 9288565 |
Результаты представлены в
виде столбчатой диаграммы.
Наибольший по кол-ву записей - раздел ENV, причем снижение поступление записей в
2008 году незначительное. Это объясняется тем, что в данном разделе лежат
записи кусочков
длины в среднем от 200 до 1500 , т.е не полная информация о последовательности,
для организмов из которых ее сложно извлекать.
Довольно мало записей о геноме человека и с каждым годом становиться все меньше.
Это объясняется тем, что "бум" на сознание записей связанных с ДНК человека
уже прошел и добавлять что-то новое теперь все сложнее.
Примерно одинаковое кол-во записей о грибах и эукариотах и наблюдается повышение
поступления информации. Это можно объяснить тем, что ввиду многообразия этих групп
неизученного материала , с одной стороны , мало, с другой, усовершенствуются способы
секвенирования и получения информации.
Первый найденный белок имеет e-value= 2e-75 ,выделен из человека и имеет
идентификатор PO1374.
Что соответствует записи
embl :" /db_xref="UniProtKB/Swiss-Prot:P01374" .
В искомом белке данный экзон кодирует соответственно с 70 по 205 аминокислоту.
Причем с 77 по 205 кислоту располагается единственный домен TNF данного белка.
Таким образом по самому длинному экзону гена удалось определить какой белок кодируется всем геном. При этом выбранный экон кодирует доменную последовательность белка,т.е достаточно стабильную и независимую подструктуру белка.
(Для этого запись Swiss-Prot была извлечена программой entret : entret sw:P0A7E1 -auto.
Далее из поля DR извлечена информация о ссылках на EMBL.
Для дальнейшего заполнения таблицы информацию нужно получать так:
На страничке "Library page" поставить галочку против EMBL, затем нажать кнопку "Standard Query Form". Поиск вести по полю "Accession number", пользуясь логическим оператором "ИЛИ".
Создайть один запрос, позволяющий сразу получить всю нужную информацию можно выделив в окошке "Choose 1 or more fields" при помощи клавиши <Ctrl> интересующие поля: ID, Molecule, Data class, Division, Sequence Length, Entry Creation Date, Description. Сохранить результаты поиска в виде таблицы при помощи кнопки "Save". )
Идентификатор записи EMBL | Тип молекулы | Класс данных | Раздел EMBL | Длина последовательности документа |
Дата создания | Описание Дата создания |
AP009048 | genomic DNA | STD | PRO | 4646332 | 22-JAN-2006 | Escherichia coli W3110 DNA, complete genome. |
U00096 | genomic DNA | STD | PRO | 4639675 | 23-FEB-2006 | Escherichia coli str. K-12 substr. MG1655, complete genome. |
X02826 | genomic DNA | STD | PRO | 1357 | 07-NOV-1985 | E. coli pyrD gene for dihydroorotate dehydrogenase (EC 1.3.3.1) |
Вся три записи имеют одинаковый тип молекулы - ДНК, класс данных -стандартный, раздел - прокариоты. Различаются даты создания, описания - 2 записи это полные геномы разных штаммов Е.соli, третья последовательность гена дигидрооротат дигидрогеназы .Соответственно длина записей(AP009048,U00096) содержащих полные геном значительно длиннее и они были созданны относительно недавно, в отличии от записи X02826.
©Петрова Светлана,2007