Банк нуклеотидных последовательностей EMBL

  1.  Пользуясь системой SRS:
    1. Узнаем дату последнего проиндексированного в системе релиза EMBL и количество записей в нём.

      Дата: 7 сентября 2009 года.

      Количество записей: 108577013.

      Для этого с "Library Page" перейдем по гиперссылке "EMBL (release)"
    2. Узнаем список классов ("Data Class") банка EMBL

      Обозначение Описание Число записей
      ANN Constructed sequence with annotation не проиндексировано
      CON Constructed sequence не проиндексировано
      EST Expressed Sequence Tag 62846990
      GRV Genome Reviews не проиндексировано
      GSS Genome Survey Sequence 25905073
      HTC High Throughput cDNA sequencing 549753
      HTG High Throughput Genome sequencing 142473
      MGA Mass Genome Annotation не проиндексировано
      PAT Patent 10439165
      SET Project set (EMBL WGS Masters only) не проиндексировано
      STD Standard 7253026
      STS Sequence Tagged Site 1310171
      TPA Third Party Annotation 6520
      TSA Transcriptome Shotgun Assembly 123842
      WGS Whole Genome Shotgun не проиндексировано

      Для этого с "Library Page" проследуем по гиперссылке "EMBL (release)". На открывшейся странице найдем "Data Class" и проследуем по этой гиперссылке.Чтобы узнать число записей, нажмите кнопку "List values"

    3. Рассмотрим список разделов ("Divisions") банка EMBL.

      Обозначение Описание (по-русски) Число записей
      ENV Образцы из окружающей среды 4145029
      FUN Гриб 3942084
      HUM Человек 12841544
      INV Беспозвоночное 15518735
      MAM Другие млекопитающие 9429823
      MUS Домовая мышь(обыкновенная) 7424621
      PHG Бактериофаг 5865
      PLN Растения 33806044
      PRO Прокариоты 909986
      ROD Грызуны 2261678
      SYN Синтетические 2671622
      TGN Трансгенные 265465
      UNC Неклассифицированные 3945859
      VRL Вирусы 827405
      VRT Другие позвоночные 10581253

      Для этого с "Library Page" проследуем по гиперссылке "EMBL (release)". На открывшейся странице найдем "Divisions" и проследуем по этой гиперссылке.Чтобы узнать число записей, нажмите кнопку "List values"

    4. Проанализируем поступление данных для трех разделов банка EMBL (HUM, MAM и VRL). Для этого определим, сколько записей класса STD появилось в каждом из этих разделов за август 2009 и 2008 годов.

      Из полученной диаграммы можем сделать вывод, что получаемое количество данных по человеку уменьшилось, по остальным млекопитающим немного выросло, а по вирусам существенно увеличилось. Весьма вероятно, что такое рост связан с важностью исследований в данном направлении.

  2.  Рассмотрим данные про ген SC1, описанного в записи EMBL с кодом доступа BA000025:
    направление гена - обратное
    число кодирующих участков - 3 
    длина первого кодирующего участка - 238
    длина последнего кодирующего участка - 241 
    длины первого интрона между кодирующими участками - 1704
    длина последнего интрона между кодирующими участками - 471
    
  3.  Получим самый длинный кодирующий участок из гена SC1 в отдельный файл.

    Это участок с 780091 по 780649.

    Далее на сайте обнаружим в какой программе и как подать на вход этот участок, чтобы найти в Swiss-Prot соответствующий белок.

    Выберем программу blastx, т.к. она находит белковые последовательности в соответствии вводимой нуклеотидной последовательности.

    Полученный в начале задания файл с участком последовательности задается в поле upload file. Как базу данных выбираем банк SwissProt.

    С подходящим e-value (ниже 0.001) было найдено 5 последовательности белков. Более всего подходит участок в белке человека, что не удивляет ведь участок гена SC1 из человеческой ДНК. Схожие последовательности нашлись в организме свиньи, мыши, шимпанзе и макаки. Все эти виды являются одними из ближайших родственников человека на генетическом уровне.

    Это белок TCF19_HUMAN (Q9Y242 - ACCESSION). Данному экзону соответствует участок с 81-265.

    Для того,что бы получить участок из гена используем программу seqret с опцией -sask)
  4.  Записи EMBL и их характеристики, на которые ссылается белок P21888 (SYC_ECOLI) в записи Swiss-Prot.

    Идентификатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания
    документа
    Описание Длина последовательности
    X56234 linear genomic DNA STD PRO 21-JAN-1991 E. coli cysS gene for cysteinyl-tRNA synthetase 2194
    M59381 linear genomic DNA STD PRO 16-FEB-1991 E.coli cysteine tRNA synthetase (cysS) gene, complete cds. 1440
    U00096 circular genomic DNA STD PRO 23-FEB-2006 Escherichia coli str. K-12 substr. MG1655, complete genome 4639675
    AP009048 circular genomic DNA STD PRO 22-JAN-2006 Escherichia coli str. K12 substr. W3110 DNA, complete genome. 4646332
    U82664 linear genomic DNA STD PRO 19-JAN-1997 Escherichia coli minutes 9 to 11 genomic sequence 139818
    X59293 linear genomic DNA STD PRO 14-AUG-1991 Escherichia coli cysS gene for cysteinyl-tRNA synthetase 2173

    Все данные описывают организм Escherichia coli. Они либо описывают полный геном , либо ген cysS .

    Запись Swiss-Prot можно получить используя программу entret,если забыли обозначение банка- сначала команду showdb).