Работа с EMBL


  1. Сравнение разных записей в EMBL.

    Результаты.

    C помощью SRS произвели поиск в БД EMBL по пяти кодам доступа (Acession number). Последние были найдены в ссылках поля DR документа Swiss-Prot, описывающего белок аспартатаминотрансферазу, на другие базы данных. Наиболее значимые сведения, полученные в результате поиска, приведены ниже.

    Таблица 1. Описание документов EMBL.

    Иденти-фикатор записи EMBL Тип молекулы Класс данных Раздел EMBL Дата создания документа Описание Длина последователь-ности (bp)
    AP009048 Геномная ДНК STD (стандарт, стандартная запись) PRO (Прокариоты) 22 января 2006 г ДНК Escherichia coli W3110, полный геном 4646332
    U00096   то же   STD (стандарт, стандартная запись) PRO (Прокариоты) 23 февраля 2006 г Полный геном Escherichia coli K12 MG1655 4639675
    X03629   то же    то же    то же  2 июля 1986 года Ген E. coli aspC, кодирующий аспартат-аминотрансферазу 1415
    X05904   то же    то же    то же  2 апреля 1988 г Ген E. coli aspC, кодирующий аспартат-аминотрансферазу 1331
    D90730 "Неопределенная", "неназначенная" ДНК   то же    то же  31 октября 1996 Заменена записью AP009048 20 января 2006 года 1
    D90731   то же    то же    то же  31 октября 1996 Заменена записью AP009048 20 января 2006 года 1

    Обсуждение.

    Относительно моего белка AAT_ECOLI в базе данных EMBL хранится 6 записей. Они были найдены по запросу, содержащему всего пять кодов доступа. Это количественное противоречие (известно, что каждому AC соответствует единственная запись) можно объяснить, используя Description записей, приведенные в таблице. Имеются данные о замене двух из них (D90730 и D90731) одной (AP009048). Последний ID (в EMBL ID и один из AC – первый по порядку, как известно, одинаковы) и отсутствует среди данных запроса, то есть в документе Swiss-Prot. Причина несоответствия становится понятной, если сравнить документ Swiss-Prot, полученны с kodomo, и запись последнего релиза (5.09.2006), найденную с помощью SRS, где уже содержатся ссылки лишь на четыре документа EMBL, и рассмотреть дату замены записей в EMBL (20.01.2006). Ясно, что на сервере ФББ хранится версия, несколько устаревшая относительно информации в БД на данный момент.

    Таким образом, здесь мы видим недостаток частого обновления информации в базах данных – пример временного несоответствия между документами разных БД, полученных из разных источников, из-за которого при случае могут быть не приняты во внимание некоторые данные.

    Кроме этого момента, очень интересны некоторые особенности, касающиеся найденных записей. Коротко охарактеризуем каждую колонку таблицы 1.

    Идентификатор
    Как видим, он не несет никакой смысловой нагрузки, являясь набором символов, построенным по принципу "первые 1–2 буквы, далее цифры".
    Тип молекулы
    Приведено два типа: геномная ДНК и "unassigned DNA" – неопределенная, неназначенная ДНК. В роли последней выступают как раз замененные записи. Чтобы понять, что означает такая характеристика, рассмотрим эти записи более детально. В документе того релиза, где они еще существуют как самостоятельные записи, в поле с меткой ID написано "геномная ДНК". Значит, с заменой на другую запись этот "статус" сменился на иной, и, думается "неопределенный" (unassigned) и значит "замененный".
    Класс данных
    Отнесение всех записей к классу данных "стандарт" говорит об отсутствии каких-то специфических подходов к получению данных или необычного типа последних (информация взята отсюда).
    Раздел EMBL
    Все исследуемые записи содержат информацию о прокариотной ДНК, поэтому относятся к разделу "PRO".
    Дата создания документа
    Видно, что полный геном был секвенирован гораздо позже, чем отдельные гены.
    Описание
    Дается разного рода информация касательно содержания документа (что описывается – полный геном или отдельный ген) или "организационных вопросов" (запись может быть заменена другой, см.выше).
    Длина последовательности.
    Длина дана в парах оснований. Можно сравнить величину отдельного гена и полного генома (понятно, что последний больше, но насколько? Другими словами, сколько генов данного размера может содержать геном). Длина для "замененных" записей равна 1 bp, кажется, это может быть связано с их статусом. Такую длину можно назвать "вырожденной", впрочем, как и сами подобные записи.

  2. Сравнение описаний гена E.coli в двух разных записях EMBL.

    Для сравнения были выбраны два документа со следующими АС: X03629 и X05904 (см. Таблицу 1). Данные записи содержат информацию о гене кишечной палочки aspC, кодирующем первичную структуру "моего" белка AAT_ECOLI. В этом убедились по следующим признакам:

    • Последовательности, получающиеся путем трансляции выбранных генов (информация поля FT, позиции "translation") совпадают с последовательностью моего белка (информация из файла AAT_ECOLI.fasta).
    • С помощью Genedoc можно "транслировать" нуклеотидные последовательности из файлов 1 и 2, содержащих CDS генов из исследуемых документов (см. ниже). Если экспортировать полученное в fasta-формат, а потом сделать множественное выравнивание двух полученных аминокислотных последовательностей и последовательности AAT_ECOLI, используя возможности emma, получим такую картину, говорящую об идентичности всех последовательностей.
    • В выбранных документах даются ссылки на записи банка PDB, описывающие пространственную структуру AAT_ECOLI. Некоторые из этих записей использовались в заданиях прошлого семестра (документ 1asl, к примеру).

    Изучив документы, заполнили таблицу 2, пользуясь в основном полем с меткой FT (features – свойства), ключом CDS (coding sequence – кодирующая последовательность).

    Таблица 2. Последовательности, кодирующие белок AAT_ECOLI в двух записях банка EMBL

      I II
    ID записи X03629 X05904
    Начало гена в записи 138 10
    Конец гена в записи 1328 1200
    Направление гена Прямое Прямое
    Примечания Большее число нуклеотидов (1415)
    "Избыток" возникает из-за включения в последовательность информации о регуляторных 5'-участкаx, находящихся в начале последовательности: центрах связывания рибосомы (для РНК) и сайте начала транскрипции (для ДНК). Положение их в последовательности описано в поле с меткой FT, ключом misc_feature (разные свойства).

    В другом поле с ключом "promoter" содержится информация о нахождении в начале последовательности двух потенциальных промоторов.

    Интересно, что особые свойства, то есть дополнительно указанные регуляторные участки последовательности, приведены одновременно как для ДНК (сайт инициации транскрипции), так и для транскрибируемой с нее РНК (сайт связывания рибосомы) в одном документе для одной и той же последовательности.

    Меньшее число нуклеотидов (1331), так как не описано и не включено в состав последовательности никаких 5-концевых регуляторных участков, в том числе промоторов.

    Описанные в "Примечаниях" особенности наглядно продемонстрированы здесь – для первого гена и здесь – для второго. Цветом выделены: красным – стоп-кодоны; оранжевым – стартовые кодоны; зеленым – потенциальные промоторы: желтым – сайт связывания рибосомы и синим – сайт инициации транскрипции. Как видим, в первом документе, в отличие от второго, действительно имеется гораздо более длинный участок предваряющий старт-кодон и содержащий несколько регуляторных последовательностей.

    С помощью команды UNIX seqret и имеющихся сведений о начале, конце и направлении кодирующих последовательностей (см. таблицу 2) получили два документа. Используя программу needle, сделали глобальное выравнивание содержащихся в них последовательностей. Его можно посмотреть здесь. Процент идентичности этого выравнивания равен 100, все позиции в изучаемых последовательностях совпадают. Это означает, что между кодирующими последовательностями нет различий. С одной стороны, судя по информации о "продуктах трансляции", приведенной в каждом из изучаемых документов, этого можно было ожидать: аминокислотные последовательности одинаковы. С другой стороны, такой же результат (идентичность первичных структур белков) мог бы быть получен при наличии несоответствий между кодирующими последовательностями в виде точечных мутаций, не меняющих смысла кодонов (вспомним про вырожденность генетического кода!). Как видим, подтвердилось первое предположение: кодирующие нуклеотидные последовательности одинаковы.

    Ранее были рассмотрены особенности, касающиеся начальной нетранслируемой области изучаемых генов. Однако, как можно заметить при рассмотрении вышеуказанных документов msf, нуклеотидные последовательности не оканчиваются со стоп-кодом. С помощью той же команды seqret были "вырезаны" последовательности после этого кодона и "выровнены" (needle). Результат можно увидеть здесь. Заметно, что последовательности все же не полностью идентичны: имеютсся гэпы, к примеру. Однако данная область нетранслируема, поэтому различия не отражаются на первичной структуре белка, которая в обоих случаях одинакова. Кроме того, видно, что здесь, наоборот, более длинным вляется конец второй последовательности (запись X05904). О функциональной нагрузке данных концевых областей ничего не известно, документ EMBL не дает информации. Однако, если эти участки включены в состав гена в документе, думается, они имеют какое-то назначение.

    Резюмируя, можно заметить, что последовательности, приведенные в двух разных документах EMBL, по смыслу не отличаются: результатом их трансляции, как показано выше, являются одинаковые первичные структуры белков; кодирующие их участки (CDS) идентичны. Однако разница есть, и она заключается в наличии в одном из документов (запись X03629) информации о регуляторных участках гена, в основном, 5-концевых. Хотя некоторые из таких участков представлены в обоих документах (старт- и стоп-кодоны), большинство в X05904 отсутствует.

  3. Знакомство с записью гена ABC50 из эукариотического генома

    Изучается участок p-плеча 6-й хромосомы человека. ABC50 – ген, кодирующий АТФ-связывающий белок, индуцируемый ФНО-α (фактором некроза опухолей-α). Информация о данном белке закодирована на цепи, комплементарной главной, о чем говорит нам указатель "complement" перед записью о каждом транслируемом участке последовательности.

    Интересно, что в состав экзонов в исследуемом документе EMBL включаются и регуляторные последовательности. В полях "exon" и "CDS" информация о начале первого и конце последнего экзона несколько отличается. Однако нас интересуют прежде всего транслируемые участки, поэтому при выполнении задания чаще будем пользоваться полем CDS.

    В описании положения гена замечены, две, на наш взгляд. интересные особенности. Во-первых, последовательность гена ABC50, записанная на комплементарной цепи, находится между двумя генами, закодированными на главной цепи. Во всех молекулярно-биологических учебниках подобные факты приводятся как удивительные. Во вторых, в последовательности есть два STS – sequence tagged site, сайта метки последовательности. Такие участки, судя по информации, взятой отсюда, – "картографические метки" последовательности, они могут быть детектированы с помощью ПЦР. Определение их порядка помогает картированию региона хромосомы.

    • Схема структуры транслируемых участков гена ACB50.

      <--{stop1351495..1351661}--...--{1370625..1370697start}--

      Приведены последний и первый экзоны, start – обозначает местоположение старт-кодона, stop – соответственно, стоп-кодона, стрелка – направление транскрипции гена.

    • Общее число экзонов изучаемого гена – 24
    • Таблица 3. Максимальные и минимальные длины участков гена ABC50.

      Экзон Интрон
      Самый длинный 171 5846
      Самый короткий 32 85

      Примечание: длина дана в bp (парах оснований).

    Расчеты проводились с помощью Excel. В таблице приведены значения без учета длины регуляторных последовательностей на 5' и 3'-концах. Расчеты, однако, были сделаны для обоих случаев. Как можно заметить, рассмотрев рабочий документ Excel, в разных случаях меняется длина самого наибольшего экзона. То, что "не затрагиваются" интроны, понятно: в изучаемом документе EMBL регуляторные последовательности включаются в состав экзонов – первого и последнего. Последний факт очень интересен, так как принято считать, что результат трансляции экзонов – непосредственно элементы (часто – домены) целевой аминокислотной последовательности, а регуляторные участки, как известно, ничего не кодируют.

    Самый общий вывод, который можно сделать из исследования записи эукариотического гена – заметная корелляция между сложностью структуры эукариотического гена и сложностью записи информации о нем.



©Ганчарова Ольга