МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

III Семестр

Проекты

Обратная Связь

Банк EMBL

  • 1. Сведения о банке EMBL, полученные с помощью системы SRS.

    А. Дату последнего проиндексированного в системе релиза EMBL - 7 сентября 2009, количество записей в нём 108577013.

    Б. Список классов ("Data Class") банка EMBL.

    Обозначение класса. Описание класса . Кол-во проиндексированных записей.
    ANN Constructed sequence with annotation -
    CON Constructed sequence -
    EST Expressed Sequence Tag 62846990
    GRV Genome Reviews -
    GSS Genome Survey Sequence 25905073
    HTC High Throughput cDNA sequencing 549753
    HTG High Throughput Genome sequencing 142473
    MGA Mass Genome Annotation -
    PAT Patent 10439165
    SET Project set (EMBL WGS Masters only) -
    STD Standard 7253026
    STS Sequence Tagged Site 1310171
    TPA Third Party Annotation 6520
    TSA Transcriptome Shotgun Assembly 123842
    WGS Whole Genome Shotgun -

    B. Cписок разделов ("Divisions") банка EMBL .

    Обозначение раздела. Описание раздела . Кол-во проиндексированных записей.
    ENV Environmental Samples (Образцы из окружающей среды) 4145029
    FUN Fungi (Грибы) 3942084
    HUM Human (Человек) 12841544
    INV Invertebrates (Беспозвоночные) 15518735
    MAM Other Mammals (Другие млекопитающиеся) 9429823
    MUS Mus musculus (Геном мыши) 7424621
    PHG Bacteriophage (Бактериофаги) 5865
    PLN Plants (Растения) 33806044
    PRO Prokaryotes (Прокариоты) 909986
    ROD Rodents (Грызуны) 2261678
    SYN Synthetic (Искусственно синтезированные) 2671622
    TGN Transgenic (Трансгенные) 265465
    UNC Unclassified (Неклассифицированные) 3945859
    VRL Viruses (Вирусы) 827405
    VRT Other Vertebrates (Другие позвоночные) 10581253

    Г. Были выбраны четыре раздела банка EMBL (FUN, HUM, SYN и VRL) и определено сколько стандартных (класса STD) записей появилось в каждом из этих разделов за март 2008 года и за тот же месяц 2009 года.

    Наибольший по кол-ву записей - раздел FUN, причем наблюдаем значительное снижение поступление записей в 2009 году Так же мы наблюдаем снижение поступления записей в разделах HUM и SYN. Только в разделе VRL незначительное увеличение поступление записей в 2009 году. Скорей всего это связано с тем, что Это объясняется тем, что "бум" на сознание записей связанных с геномом грибов, ДНК человека и искусственно созданные геномы уже прошел и добавлять что-то новое теперь все сложнее.

  • 2. Описание гена OTF3 из записи EMBL с кодом доступа BA000025.

    Направление гена относительно направления записи - прямое

    Число кодирующих участков - 4

    Длины кодирующих участков - 241, 131, 159, 267

    Длины интронов - 233, 284, 262

  • 3. Поиск белка по кодирующему участку гена OTF3.

    1. Находясь на kodomo-count запустить команду seqret -sask
    2. На запрос intup (gapped) sequence ввести имя входного файла EMBL (BA000025.embl)
    3. На запрос Begin at position [start]: 777228
    и End at position [end]: 777494
    4.На запрос Reverse strand я ввел "n", так как участок лежит на прямой цепи
    5.Задать имя выходного файла (otf3.fasta)
    6.Зайти на страницу http://blast.ncbi.nlm.nih.gov/
    7.Пойти по ссылке blastX - она ищет белковые последовательности по заданным на вход нуктеотидным
    8.В поле "upload file" была подана вырезанная последовательность в fasta-формате
    9.В поле "database" был выбран банк swissprot. Далее был начат поиск.

    В итоге найден ряд белков из различных организмов. Первыx два найденных белка имеют e-value= 6e-38, первый выделен из шимпанзе об. и имеет идентификатор Q7YR49, а второй из человека - Q01860. Экзону соответствует участок этого белка с 273 по 360 аминокислотные остатки.

  • 4. В записи Swiss-Prot, описывающей белок P0AA43 были взяты все ссылки на банк EMBL.

    На основе данных SRS была заполнена следующая таблица:

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Длина последовательности Дата создания
    документа
    Описание
    AP009048 genomic DNA STD PRO 4646332 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome
    U00008 genomic DNA STD PRO 39149 24-NOV-1993 centisome 49 region of E.coli
    K12 BHB2600
    U00096 genomic DNA STD PRO 4639675 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome

    В EMBL обнаружено 3 записей геномных ДНК. Самая короткая последовательность являются самой старой - 1993 года, она содержит только небольшой участок генома E.coli. Самые свежие записи (2006) являются полным геномом E.coli.


© 2008, Илья Курочкин