1. Пользуясь системой SRS (http://srs.ebi.ac.uk/):

  1. Последний релиз проиндексирован 7 сентября 2009 года и включает 108577013 записей.

  2. Список классов ("Data Class") банка EMBL
     
        * ANN: Constructed sequence with annotation
        * CON: Constructed sequence
        * EST: Expressed Sequence Tag
        * GRV: Genome Reviews
        * GSS: Genome Survey Sequence
        * HTC: High Throughput cDNA sequencing
        * HTG: High Throughput Genome sequencing
        * MGA: Mass Genome Annotation
        * PAT: Patent
        * SET: Project set (EMBL WGS Masters only)
        * STD: Standard
        * STS: Sequence Tagged Site
        * TPA: Third Party Annotation
        * TSA: Transcriptome Shotgun Assembly
        * WGS: Whole Genome Shotgun

    Число записей каждого класса, проиндексированных SRS для последнего релиза EMBL

        est 	62846990 (записей)
        gss 	25905073
        htc 	549753
        htg 	142473
        pat 	10439165
        std 	7253026
        sts 	1310171
        tpa 	6520
        tsa 	123842

    Не проиндексированы записи следующих классов:

    * ANN: Constructed sequence with annotation
    * CON: Constructed sequence
    * GRV: Genome Reviews
    * MGA: Mass Genome Annotation
    * SET: Project set (EMBL WGS Masters only)
    * WGS: Whole Genome Shotgun
    
  3. Список разделов ("Divisions") банка EMBL.

    Обозначение Описание по-английски и по-русски Число записей
    ENV Environmental Samples Образцы из окружающей среды 4145029
    FUN Fungi Грибы 3942084
    HUM Human Человек 12841544
    INV Invertebrates Беспозвоночные 15518735
    MAM Other Mammals Другие млекопитающие 9429823
    MUS Mus musculus Домовая мышь 7424621
    PHG Bacteriophage Бактериофаги 5865
    PLN Plants Растения 33806044
    PRO Prokaryotes Прокариоты 909986
    ROD Rodents Грызуны 2261678
    SYN Synthetic Синтетические 2671622
    TGN Transgenic Трансгенные 265465
    UNC Unclassified Неклассифицированные 3945859
    VRL Viruses Вирусы 827405
    VRT Other Vertebrates Другие позвоночные 10581253
2. Информация в записи EMBL с кодом доступа BA000025 для MICB гена

Направление гена обратное

Число кодирующих участков 6

Длины первого и последнего кодирующих участков 128 и 70 соответственно

Длины первого и последнего интронов между кодирующими участками 2250 и 7352 соответственно
 

3. Самый длинный кодирующий участок (437570..437857) длиной в 288 нуклеотида.

С помощью программы seqret с опцией -sask последовательность кодирующего участка была вырезана в отдельный файл.

seqret -sask
Reads and writes (returns) sequences
Input (gapped) sequence(s): BA000025.embl
Begin at position [start]: 437570
End at position [end]: 437857
Reverse strand [N]:
output sequence(s) [ba000025.fasta]:

Последовательность сохранена в файле ba000025.fasta

На странице http://blast.ncbi.nlm.nih.gov/ была выбрана программа blastx, находящая белковые последовательности, соответствующие нуклеотидной последовательности, подаваемой на вход:

в поле upload file - Файл ba000025.fasta

В поле database - банк SwissProt.

Найдено 18 белков. Белок sp|Q29980.1|MICB_HUMAN первый. Участок его с 3 по 287 а.о. соответствует данному экзону


 

4. Характеристика записей EMBL, на которые ссылается запись P0A6Y1 банка SwissProt
Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
документа
Описание Длина последовательности
X04864 genomic DNA STD (Standard) PRO (Prokaryotes) 19-SEP-1987 E-coli hip gene for integration host factor beta-subunit (IHF beta) 600
U00096 genomic DNA STD (Standard) PRO (Prokaryotes) 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome. 4639675
AP009048 genomic DNA STD (Standard) PRO (Prokaryotes) 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332

Все записи относятся к классу данных STD и к разделу EMBL PRO. Они описывают ДНК организма Escherichia coli. Записи AP009048 и U00096 имеют по сравнению с другими длинную последовательность, т.к они описывают полный геном.