Занятие 2. Банк EMBL

  1. Сравнение разных записей в EMBL
  2. В документе SwissProt, описывающем RIR1_Ecoli, найдены все ссылки на банк EMBL.

    Идентификатор записи EMBL Тип молекулы
    Класс данных
    Раздел EMBL
    Дата создания
    документа
    Описание
    Длина последовательности
    AP009048 genomic DNA STD PRO 22-JAN-2006 Escherichia coli W3110 DNA, complete genome. 4646331
    K02672 genomic DNA STD PRO 28-JAN-1986 Escherichia coli ribonucleoside diphosphate reductase operon, complete sequence. 8553
    U00096 genomic DNA STD PRO 23-FEB-2006 Escherichia coli K12 MG1655, complete genome. 4639674
    X06999 genomic DNA STD PRO 16-JUL-1988 E. coli nrdA gene 2286

    Как видно по описанию, две записи из четырех - полный геном E.coli разных штаммов.
    Рибонуклеозид дифосфат редуктаза состоит из 2 субъединиц, каждая из которых закодирована в отдельном гене (nrdA и nrdB).
    Четвертая ссылка, судя по всему, - нуклеотидная последовательность RIR1_Ecoli (ген nrdA), с которым я работал в первых двух семестрах.
    Вторая запись ссылается на оба гена, как nrdA так, и nrdB, кодирующих данный фермент.

  3. Сравнение описаний гена Escherichia coli в двух разных записях EMBL
  4. Для выполнения задания были выбраны записи K02672 и X06999.
    K02672 кодирует не только RIR1_Ecoli, но и RIR2_Ecoli.

    Последовательности, кодирующие белок RIR1_Ecoli в двух записях банка EMBL

    I II
    ID записи K02672 X06999
    Начало гена в записи 3505 1
    Конец гена в записи 5835 2286
    Направление гена прямое прямое
    Примечания * -

    *В качестве CDS указан участок последовательности, которая после трансляции станет "предшественником" RIR1, который, по-видимому, не будет обладать ферментативной активностью(ribonucleoside diphosphate reductase B1 subunit precursor). Там также указаны 2 участка последовательности, после трансляции которых будут получены "готовые" RIR1 (ribonucleoside diphosphate reductase B1 subunit alpha polypeptide (участок 3511..5832) и ribonucleoside diphosphate reductase B1 subunit alpha-prime polypeptide (участок 3583..5832)). В таблице указаны конец и начало CDS.

    Как видно, последовательность из K02672 длиннее на 45 bp. Если рассматривать нуклеотидные последовательности "готовых" RIR1, то их различие с нуклеотидной последовательностью из записи из X06999 изменится незначительно в cлучае с ribonucleoside diphosphate reductase B1 subunit alpha polypeptide - оно будет составлять 36 bp. Если же рассматривать последовательность ribonucleoside diphosphate reductase B1 subunit alpha-prime polypeptide, то она окажется на 38 bp короче, последовательности из X06999.

    Сравнительная характеристика выравниваний,сделанных программой needle, нуклеотидной последовательности из X06999 и различных последовательностей из K02672.

    Sequence from K02672Identity(%)Similarity(%)Length(bp)Gaps(%)Score
    ribonucleoside diphosphate reductase B1 subunit precursor96.596.523463.211118.5
    ribonucleoside diphosphate reductase B1 subunit alpha polypeptide96.496.423433.311088.5
    ribonucleoside diphosphate reductase B1 subunit alpha-prime polypeptide93.393.323436.410728.5

    Исходя из полученных данных, можно сделать вывод о том, что в последовательности из X06999 скорей всего в качестве CDS имеется ввиду ribonucleoside diphosphate reductase B1 subunit precursor.

    Интересно, что если транслировать CDS моего белка из X06999 и K02672 и построить выравнивание уже получившихся аминокислотных последовательностей, то Identity будет составлять еще меньшую величину в 79.3%. Это происходит из-за того, что в нуклеотидной последовательности на участке 750-950 bp происходит последовательно сдвиг а затем "возврат" рамки считывания. Также имеется сдвиг рамки считывания в районе 1750 bp, не имеющий "возврата". В качестве иллюстрации приведены ссылки на соответственно нуклеотидное и аминокислотное выравнивания.

  5. Знакомство с записью гена из эукариотического генома
  6. В AL355388 содержится две записи гена с названием RIT1. Для выполнения задания была выбрана первая встретившаяся запись. Во второй имеется на 1 экзон больше, также один из экзонов имеет большую длину. В остальном ген записан одинаково в обоих случаях. Судя по-всему, в данном случае имеет место альтернативный сплайсинг, т.е. из м-РНК одного и того же гена могут вырезаться разные участки перед синтезом белка.

    • Структура транслируемых участков предложенного гена схематично приведена ниже.
      Ген на комплементарной цепи
          AL355388
          <-----[4130..4186]----[4336..4441]------------------------
          AL139128
          <-[136901..137131]--[140824..141015]--[141244..141317]----
      
      Дело в том, что последовательность гена содержится не только в записи AL355388, но и в записи AL139128. Человеческий геном слишком большой, чтобы хранить настолько подробное его описание целиком в одном файле, поэтому оно и делится на несколько частей. Но у эукариот имеет место сплайсинг, что и приводит к тому, что требуется давать ссылки в одних записях генома на другие.
    • Ген RIT1 содержит 5 экзонов и 4 интрона.
    • Длина самого длинного экзона - 231 bp, а самого короткого - 57 bp.
    • Длина самого короткого интрона - 150 bp. Из-за того, что последовательность гена содержится в разных записях выяснить длину самого протяженного интрона затруднительно. Однако из того что длина записи AL139128 составляет 144833 bp можно сделать вывод о том, что она будет больше 144833-141317+4130=7646 bp. При этом данная величина будет достигнута, если последовательности данных записей расположены на хромосоме друг за другом в порядке <-[AL139128]-[AL355388]-

Вычисления доступны здесь в виде Excel-книги.

Вернутся к списку протоколов


©:Сорокин Максим