Банк нуклеотидных последовательностей EMBL

    1. Пользуясь системой SRS (http://srs.ebi.ac.uk/):

    1. Последний релиз проиндексирован 7 сентября 2009 года и включает 108577013 записей.

    2. Список классов ("Data Class") банка EMBL
       
          * ANN: Constructed sequence with annotation
          * CON: Constructed sequence
          * EST: Expressed Sequence Tag
          * GRV: Genome Reviews
          * GSS: Genome Survey Sequence
          * HTC: High Throughput cDNA sequencing
          * HTG: High Throughput Genome sequencing
          * MGA: Mass Genome Annotation
          * PAT: Patent
          * SET: Project set (EMBL WGS Masters only)
          * STD: Standard
          * STS: Sequence Tagged Site
          * TPA: Third Party Annotation
          * TSA: Transcriptome Shotgun Assembly
          * WGS: Whole Genome Shotgun

      Число записей каждого класса, проиндексированных SRS для последнего релиза EMBL

          est 	62846990 (записей)
          gss 	25905073
          htc 	549753
          htg 	142473
          pat 	10439165
          std 	7253026
          sts 	1310171
          tpa 	6520
          tsa 	123842

      Не проиндексированы записи следующих классов:

      * ANN: Constructed sequence with annotation
      * CON: Constructed sequence
      * GRV: Genome Reviews
      * MGA: Mass Genome Annotation
      * SET: Project set (EMBL WGS Masters only)
      * WGS: Whole Genome Shotgun
      
    3. Список разделов ("Divisions") банка EMBL.

      Обозначение Описание по-английски и по-русски Число записей
      ENV Environmental Samples Образцы из окружающей среды 4145029
      FUN Fungi Грибы 3942084
      HUM Human Человек 12841544
      INV Invertebrates Беспозвоночные 15518735
      MAM Other Mammals Другие млекопитающие 9429823
      MUS Mus musculus Домовая мышь 7424621
      PHG Bacteriophage Бактериофаги 5865
      PLN Plants Растения 33806044
      PRO Prokaryotes Прокариоты 909986
      ROD Rodents Грызуны 2261678
      SYN Synthetic Синтетические 2671622
      TGN Transgenic Трансгенные 265465
      UNC Unclassified Неклассифицированные 3945859
      VRL Viruses Вирусы 827405
      VRT Other Vertebrates Другие позвоночные 10581253
    2. Информация в записи EMBL с кодом доступа BA000025 для G7C гена

    Направление гена прямое

    Число кодирующих участков 16

    Длины первого и последнего кодирующих участков 234 и 32 соответственно

    Длины первого и последнего интронов между кодирующими участками 303 и 84 соответственно
     

    3. Самый длинный кодирующий участок (177253..177554) длиной в 302 нуклеотида.

    С помощью программы seqret с опцией -sask последовательность кодирующего участка была вырезана в отдельный файл.

    seqret -sask
    Reads and writes (returns) sequences
    Input (gapped) sequence(s): BA000025.embl
    Begin at position [start]: 1395873
    End at position [end]: 1396114
    Reverse strand [N]:
    output sequence(s) [ba000025.fasta]:
    

    Последовательность сохранена в файле ba000025.fasta

    На странице http://blast.ncbi.nlm.nih.gov/ была выбрана программа blastx, находящая белковые последовательности, соответствующие нуклеотидной последовательности, подаваемой на вход:

    в поле upload file - Файл ba000025.fasta

    В поле database - банк SwissProt.

    Найдено 75 белков. Белок Q9Y334.3|G7C_HUMAN первый. Участок его с 176 по 189 а.о. соответствует данному экзону


     

    4. Характеристика записей EMBL, на которые ссылается запись P02925 банка SwissProt
    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    K00511 genomic DNA STD (Standard) PRO (Prokaryotes) 13-JUN-1985 E.coli D-ribose-binding protein (rbsP) gene, complete cds 891
    U00096 genomic DNA STD (Standard) PRO (Prokaryotes) 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
    M13169 genomic DNA STD (Standard) PRO (Prokaryotes) 07-JUN-1987 E.coli K12 rbsD, rbsA, rbsC, rbsB, rbsK, and rbsR genes encoding the high affinity ribose transport system, complete cds 6197
    AP009048 genomic DNA STD (Standard) PRO (Prokaryotes) 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
    L10328 genomic DNA STD (Standard) PRO (Prokaryotes) 19-MAY-1993 E. coli; the region from 81.5 to 84.5 minutes. 136254

Все записи относятся к классу данных STD и к разделу EMBL PRO. Они описывают ДНК организма Escherichia coli. Записи AP009048 и U00096 имеют по сравнению с другими длинную последовательность, т.к они описывают полный геном.