Банк нуклеотидных последовательностей EMBL

  1.   Пользуясь системой SRS, мы получили:
    1. Дата последнего проиндексированного в системе релиза EMBL: 07-Sep-2009

       Количество записей в нём: 108577013

    2. Cписок классов ("Data Class") банка EMBL - их обозначения и описания:


      * ANN: Constructed sequence with annotation
      * CON: Constructed sequence
      * EST: Expressed Sequence Tag (62846990 Entries)
      * GRV: Genome Reviews
      * GSS: Genome Survey Sequence
      * HTC: High Throughput cDNA sequencing
      * HTG: High Throughput Genome sequencing
      * MGA: Mass Genome Annotation
      * PAT: Patent
      * SET: Project set (EMBL WGS Masters only)
      * STD: Standard
      * STS: Sequence Tagged Site
      * TPA: Third Party Annotation
      * TSA: Transcriptome Shotgun Assembly
      * WGS: Whole Genome Shotgun

      Databank Name Print Name Short Name Type No. of Keys No. of Entry References Indexing Date Status
      EMBLRELEASE Class Data Class cla index 9 108577013 07-Sep-2009 ok


      Values in EMBLRELEASE:



      Value No of Entries
      est 62846990
      gss 25905073
      htc 549753
      htg 142473
      pat 10439165
      std 7253026
      sts 1310171
      tpa 6520
      tsa 123842


      Не проиндексированны записи следующих классов:

      WGS, MGA, GRV, CON, ANN.

    3. Список разделов и число записей банка EMBL:

      Наименование Обозначение Число записей в EMBLWGSNEW Число записей в EMBLWGSRELEASE Число записей в EMBLRELEASE Число записей в EMBLNEW
      ENV Пробы окружающей среды 12788 17708859 4145029 556879
      FUN Грибы 48064 208747 3942084 247785
      HUM Человек - 1461157 12841544 370279
      INV Беспозвоночные 222816 3945840 - 465691
      MAM Другие Млекопитающие 1130847 19228219 9429823 84091
      MUS Мыши - 1062676 7424621 509323
      PHG Бактериофаги 8 8 5865 280
      PLN Растения 294699 452705 33806044 2399106
      PRO Прокариоты 22474 242470 909986 103198
      ROD Грызуны - 2405634 2261678 11651
      SYN Синтетический - - 2671622 164625
      TGN Трансгенный 1 1 265465 8
      UNC Неклассифицируемый - - 3945859 300294
      VRL Вирусы - - 827405 49922
      VRT Другие Позвоночные - 1922837 10581253 60551


  2.   Код доступа: BA000025, имя гена: HLA-A.

    Направление гена относительно направления, выбранного для записи: обратное
    Число кодирующих участков: 8
    Длина первого кодирующего участка: 73 нуклеотидa
    Длина последнего кодирующего участка: 5 нуклеотидов
    Длина первого интрона: 130 нуклеотидов
    Длина последнего интрона: 169 нуклеотидов

  3.   Поиск белка по кодирующему участку гена.

    Самый длинный кодирующий участок для моего гена - участок в 276 нуклеотидов (1999013..1999288).
    C помощью программы seqret вырежем его последовательность в отдельный файл:

    seqret -sask
    Reads and writes (returns) sequences
    Input (gapped) sequence(s): BA000025.embl
    Begin at position [start]: 1999013
    End at position [end]: 1999288
    Reverse strand [N]:
    output sequence(s) [ba000025.fasta]: ba000025.fasta

    На выходе получился файл: ba000025.fasta

    Чтобы найти белковую последовательность, соответствующую нуклеотидной последовательности вырезанного участка, я воспользовалась программой blastx.
    В поле database: база данных SwissProt
    В поле upload file: ba000025.fasta
    Blastx нашёл множество белков с E-value меньше 0.001, белок P04439 (HLA class I histocompatibility antigen) найден первым.
    Участок с 116 по 206 аминокислотных остатков соответствует исследуемому экзону.

  4.  Характеристика записей EMBL, на которые ссылается запись P15043 (RECQ_ECOLI) банка SwissProt

    Запись SwissProt белка P15043, полученная программой ENTRET:   recq_ecoli.entret

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
      M30198  linear genomic DNA  STD (Standard)  PRO (Prokaryotes)  20-APR-1990  E.coli recQ gene complete cds, and pldA gene, 3' end.  2695
     M87049  linear genomic DNA  STD (Standard)  PRO (Prokaryotes)  31-AUG-1992  E. coli genomic sequence of the region from 84.5 to 86.5 minutes.  91414
     U00096  circular genomic DNA  STD (Standard)  PRO (Prokaryotes)  23-FEB-2006  Escherichia coli str. K-12 substr. MG1655, complete genome.  4639675
     AP009048  circular genomic DNA  STD (Standard)  PRO (Prokaryotes)  22-JAN-2006  Escherichia coli str. K12 substr. W3110 DNA, complete genome.  4646332


    Из данных таблицы можно заметить сильное преобладание в длине последовательности двух записей: AP009048 и U00096. Это связано с тем, что они описывают полный геном, а M30198 и M87049 описывают ген LPP (lipoprotein).
    Кроме того, все 4 записи описывают ДНК прокариотического огранизма Escherichia coli, относятся к одному стандартному классу данных.