Банк нуклеотидных последовательностей EMBL

Cправка о EMBL

:
База данных нуклеотидных последовательностей Европейской молекулярно-биологической лаборатории пополняется большей частью непосредственно авторами, определившими первичную структуру фрагмента ДНК или РНК и, кроме последовательности нуклеотидов, содержит разнообразную информацию о каждом фрагменте, включая литературные ссылки, перекрестные ссылки на документы других баз данных, таблицы особенностей и др. Существует с 1982 года. База данных - продукт сотрудничества консорциума, состоящего из EMBL ( Германия), GenBank (США) и DDJP (Япония), каждый из членов которого собирает свою порцию информации из всех доступных источников, ежедневно обмениваясь новыми и обновленными документами друг с другом. Удобна своей географической близостью для доступа на территории Европы. В России на сайте Института физико-химической б иологии им. А.Н. Белозерского хранится регулярно обновляемая копия (зеркало) базы (http://www.genebee.msu.su/).

  1.  Пользуясь системой SRS (http://srs.ebi.ac.uk/), вкладкой "Library Page" и далее гиперссылке "EMBL (release)" можно определить дату последнего проиндексированного в системе релиза EMBL и количество записей в нём.

    Текущий релиз EMBL содержит 92831733 записей ,согласно индексации от 5 сентября 2008 года.
    Состояние релиза можно посмотреть здесь .

  2. Список классов ("Data Class") банка EMBL.
    Обозначение класса. Описание класса . Кол-во проиндексированных записей.
    ANN Constructed sequence with annotation -
    CON Constructed sequence -
    EST Expressed Sequence Tag 54868004
    GRV Genome Reviews -
    GSS Genome Survey Sequence 24420981
    HTC High Throughput cDNA sequencing 524114
    HTG High Throughput Genome sequencing 135664
    MGA Mass Genome Annotation -
    PAT Patent 6175434
    SET Project set (EMBL WGS Masters only) -
    STD Standard 5752704
    STS Sequence Tagged Site 945908
    TPA Third Party Annotation 5919
    TSA Transcriptome Shotgun Assembly 3005
    WGS Whole Genome Shotgun -

    Данные можно получить: "Library Page" ===> "EMBL (release)" ===> в списке полей "Data Class"(название классов) ===>"List values"(Кол-во записей.)

  3. Cписок разделов ("Divisions") банка EMBL .
    Обозначение раздела. Описание раздела. Кол-во проиндексированных записей.
    ENV Environmental Samples (Примеры из окружающей среды) 3614899
    FUN Fungi (Грибы) 2524681
    HUM Human (Человек) 11540219
    INV Invertebrates (Беспозвоночные) 13679938
    MAM Other Mammals (Другие млекопитающиеся) 8686059
    MUS Mus musculus (Геном мыши,аббревиатурное обозначение) 7330487
    PHG Bacteriophage <Бактериофаги> 4896
    PLN Plants (Растения) 28334269
    PRO Prokaryotes(Прокариоты) 675972
    ROD Rodents (Грызуны) 1804253
    SYN Synthetic(Искусственно синтезированные.) 1500620
    TGN Transgenic (Трансгенные) 265445
    UNC Unclassified (Неклассифицированные) 2956530
    VRL Viruses(Вирусы) 624900
    VRT Other Vertebrates(Другие позвоночные) 9288565

  4. Были выбраны четыре раздела банка EMBL (FUN ,HUM, ENV и PRO) и определено сколько стандартных (класса STD) записей появилось в каждом из этих разделов за октябрь 2008 года и за тот же месяц 2007 года.

    Результаты представлены в виде столбчатой диаграммы.
     

    Наибольший по кол-ву записей - раздел ENV, причем снижение поступление записей в 2008 году незначительное. Это объясняется тем, что в данном разделе лежат записи кусочков длины в среднем от 200 до 1500 , т.е не полная информация о последовательности, для организмов из которых ее сложно извлекать.
    Довольно мало записей о геноме человека и с каждым годом становиться все меньше. Это объясняется тем, что "бум" на сознание записей связанных с ДНК человека уже прошел и добавлять что-то новое теперь все сложнее.
    Примерно одинаковое кол-во записей о грибах и эукариотах и наблюдается повышение поступления информации. Это можно объяснить тем, что ввиду многообразия этих групп неизученного материала , с одной стороны , мало, с другой, усовершенствуются способы секвенирования и получения информации.

  5. Краткая характеристика гена LTA.
    Направление гена относительно направления, выбранного для записи : обратное
    Число кодирующих участков :3
    Длина первого кодирующуго участка : 413
    Длина последнего кодирующего участка: 99seB
    Длина первого интрона : 247
    Длина последнего интрона : 86

  6. Для вырезания учаска из файла EMBL :
    1. Находясь на kodomo-count запустить команду seqret -sask
    2. На запрос "intup (gapped) sequence" ввести имя входного файла EMBL (BA000025.embl)
    3. На запрос "Begin at position [start]: " и "End at position [end]:"
    ввести координаты начала и конца искомого учаска (в данном случае самый длинный экон
    это 1 часток в CDS, сооствтсвенно координаты 370333 и 370745 .)
    4.На запрос " Reverse strand " я ввела "y",т.к участок лежит на обратной цепи.
    5.Задать имя выходного файла.
    6. Зайдти на страницу http://blast.ncbi.nlm.nih.gov/.
    7.Пойти по ссылке blastX .
    8. ввести полученный верезанный участок и задать поиск по Swiss-Prot.


    Первый найденный белок имеет e-value= 2e-75 ,выделен из человека и имеет идентификатор PO1374.
    Что соответствует записи embl :" /db_xref="UniProtKB/Swiss-Prot:P01374" .
    В искомом белке данный экзон кодирует соответственно с 70 по 205 аминокислоту. Причем с 77 по 205 кислоту располагается единственный домен TNF данного белка.

    Таким образом по самому длинному экзону гена удалось определить какой белок кодируется всем геном. При этом выбранный экон кодирует доменную последовательность белка,т.е достаточно стабильную и независимую подструктуру белка.

  7.  В записи Swiss-Prot, описывающей белок P0A7E1 были взяты все ссылки на банк EMBL.
    (Для этого запись Swiss-Prot была извлечена программой entret : entret sw:P0A7E1 -auto.
    Далее из поля DR извлечена информация о ссылках на EMBL.

    Для дальнейшего заполнения таблицы информацию нужно получать так:
    На страничке "Library page" поставить галочку против EMBL, затем нажать кнопку "Standard Query Form". Поиск вести по полю "Accession number", пользуясь логическим оператором "ИЛИ".
    Создайть один запрос, позволяющий сразу получить всю нужную информацию можно выделив в окошке "Choose 1 or more fields" при помощи клавиши <Ctrl> интересующие поля: ID, Molecule, Data class, Division, Sequence Length, Entry Creation Date, Description. Сохранить результаты поиска в виде таблицы при помощи кнопки "Save". )

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Длина последовательности
    документа
    Дата создания Описание Дата создания
    AP009048  genomic DNA  STD  PRO  4646332  22-JAN-2006  Escherichia coli W3110 DNA, complete genome.
    U00096  genomic DNA  STD  PRO  4639675  23-FEB-2006  Escherichia coli str. K-12 substr. MG1655, complete genome.
     X02826  genomic DNA  STD  PRO  1357  07-NOV-1985  E. coli pyrD gene for dihydroorotate dehydrogenase (EC 1.3.3.1)

    Вся три записи имеют одинаковый тип молекулы - ДНК, класс данных -стандартный, раздел - прокариоты. Различаются даты создания, описания - 2 записи это полные геномы разных штаммов Е.соli, третья последовательность гена дигидрооротат дигидрогеназы .Соответственно длина записей(AP009048,U00096) содержащих полные геном значительно длиннее и они были созданны относительно недавно, в отличии от записи X02826.

Главная страница Третий семестр


©Петрова Светлана,2007