На главную страницу четвертого семестра.

Классификация функций. Коды ферментов.

Задание № 1. Объясните, что значит заданный Вам код фермента


Номенклатура ферментов IUPAC громоздкая, но зато однозначная. Главный её принцип состоит в том, что ферменты называют и классифицируют в соответствии с типом катализируемой химической реакции и её механизмом. Основные черты системы состоят в следующем:
Итак, по классификации ферментов, номер 4.2.3.12
Лиазы (EC 4) - класс ферментов, расщепляющие связи С-С, С-О, С-N, и другие связи, но негидролитическим или окислительным путем. Лиазы отличаются от других ферментов тем, что используют два субстрата для ферментативной реакции, идущей в одном направлении (чаще в обратном), и один субстрат, если катализируется другое направление реакции (чаще, прямое). То есть общая ферментативная реакция описывается схемой:

С <=> А + В


Если в реакции участует один субстрат, то элиминируется низкомолекулярное вещество с образованием или двойной связи, или новой циклической связи. Систематическое название составляется в соответствии с названием 'субстратная группы + лиаза'. В названиях ферментов используются окончания "-лиазы": декарбоксилазы, альдолазы. Так, название "дегидратаза" означает, что данный фермент элиминирует молекулы Н2О от молекулы субстрата. В тех случаях, когда обратная реакция более важна, нежели прямая, или когда только направление синтеза из двух молекул субстрата одной молукулы продукта действительно наблюдется в опыте, как единственное направление реакции, то чаще используют термин "синтаза" в названии фермента.
EC 4.2 - этот подкласс содержит ферменты, которые расщепляют С-О связи. Так, если фермент является гидролазой (ЕС 4.2.1), то происходит элиминация воды; в подподклассе ЕС 4.2.2 ферменты элиминируют спритовую группу у полисахаридов, и в подподклассе ЕС 4.2.3 ферменты элиминируют фосфатную группу. Другие случаи собраны в подподкласс ЕС 4.2.99.
ЕС 4.2.3.12 - фермент с данным порядковым номером называется 6-пирувилтетрагидроптерин синтаза (общепринятое название), катализирует реакцию образования 6-пирувил-5,6,7,8-тетрагидроптерина из 6-[(1S,2R)-1,2-дигидрокси-3-трифосфооксипропил]-7,8-дигидроптерина посредстовом отщепления из последнего трифосфотной группы, и внутримолекулярного восстановления в присутствии Mg2+. Фермент обнаружен в гепатоцитах человеческого организма.



Так как катализируется реакция отщепления фосфатной группы от довольно сложного субстрата, то системное название оказывается очень сложным и громоздким (отчего и используется общепринятое название): 2-амино-4-оксо-6-[(1S,2R)-1,2-дигидрокси-3-трифосфооксипропил]-7,8-дигидроксиптеридин трифосфат лиаза.

Задание №2. Сравните последовательности ферментов с одинаковым кодом из эволюционно далеких организмов.


C помощью SRS по коду фермента 4.2.3.12 был произведен поиске в UniProt всех ферментов из трех организмов - кишечной палочки Escherichia coli K-12, археи Methanococcus jannaschii и Homo sapiens. Для этого использовался следующий запрос: ([uniprot-ECNumber:4.2.3.12] & (([uniprot-ID:*_Ecoli] | [uniprot-ID:*_Human]) | [uniprot-ID:*_Metja])). В результате, было получено всего четыре записи, из которых только две имели определенное название гена, тогда как для остальных двух записей UniProt имена генов отсутствовали. Так как по заданию, необходимо работать с теми белками, имеющими название гена, то фактически в дальнейшем работа проводилась именно с этими двумя белками. Ими оказались фермент PTPS_ECOLI из бактерии Escherihia coli с названием гена YGCM и белок PTPS_HUMAN с названием гена PTS. Также были найдены фермент с тем же ЕС из археи Methanococcus jannaschii, но ген этого белка не имел названия, что возможно связано с тем, что ген белка был обнаружен биоинформатическими методами, сравнительным анализом с белками, точно установленными в других организмах.

Итак, по данным записей UniProt'a, на первом шаге анализа сходства последовательностей была заполнена таблица, содержащая требуемые характеристики доменной структуры ферментов (согласно классификации Pfam'a), ID, AC ферментов, названия соответствующих генов и также добавлен ещё один столбец "длина последовательности". На мой взгляд, стоит учесть это свойство исследуемых последовательностей, так как в дальнейшем, это может повлиять на метод анализа сходства ферментов.

 
UniProt ID
UniProt AC
Имя гена
Длина последовательности.
Домен
Идентификатор Pfam
Положение в последовательности
1 PTPS_ECOLI P65870, Q2MA64, Q46903 121 YGCM PF01242 1-121
2 PTPS_HUMAN Q03393, Q8WVG8 PTS 145 PF01242 3-145


Как видно из данных таблицы, оба фермента являются однодоменными белками, по классификации Pfam эти домены относятся к одному семейству доменов со сходной (фактически, одной и той же) функцией в метаболизме клетки. Длины последовательностей различаются не намного (на 24 аминокислоты длина человеческого фермента PTPS_HUMAN больше длины бактериального PTPS_ECOLI; видимо в ходе эволюции произошла одна/(больше одной) вставка(-и), отчего наблюдается данное различие. Домен занимает всю длину белка бактериальной синтазы, тогда как у эукариотической - 143 аминокислоты (хотя на мой взгляд, границы домена определяются тем, что вообще считать доменом в белках и каким образом устанавливать эти границы. Так, если я не ошибаюсь, Андрей Владимирович Алексеевский предлагал нам локализовывать границы доменов, как наибольшее расстояние, превышающее заданный порог (3.5А - стандартная длина водородной связи), между атомами аминокислот, которые предположительно (визульно, определенные "на глазок") входят в разные домены. В Pfam, возможно, установлен несколько иной алгоритм, но все же отвергать какие-то две аминокислоты с N-конца, не включать их в единый домен, выглядит как-то сомнительно). Вывод из данных таблицы: уже на первом шаге проглядывается некоторое сходство в доменной организации (обе синтазы - однодоменные белки), отнесении этих доменов к одному семейству (согласно классификации Pfam).

На втором шаге, было интересно и в целом необходимо установить, можно ли считать эти ферменты действительно идентичными в плане выполняемой функции в метаболизме клетки. В принципе, о свойствах белка частично сказано в записях UniProt'a, поэтому можно просто обратиться к этим записям. Итак, фермент PTPS_ECOLI является "предполагаемой 6-пирувил тетрагидроптерин синтазой (Putative 6-pyruvoyl tetrahydrobiopterin synthase), а PTPS_HUMAN - "6-пирувил тетрагидроптерин синтазой" (6-pyruvoyl tetrahydrobiopterin synthase). То есть для человеческого (далее эукариотического) роль фермента установлена точно. Это также подтверждается соответствующими терминами GO: на странице записи UniProt'a имеется шесть ссылок на термины GO, из которых два посвящены молекулярной функции белка, три - биологическому процессу, осуществляемому данным ферментом и один - клеточной локализации фермента. И все шесть терминов имеют экспериментальное подтверждение: IDA (непосредственно проведенный эксперимент), TAS (общественно известные данные) и IPI (эксперимент по изучению взаимодействия продуктов гена с другими молекулами (ионами, комплексами)). Что касается фермента из кишечной палочки, то на счет его функций ссылок на соответствующие термины в GO нет. Можно лишь строить предположения, почему они отсутствуют. Возможно, роль белка установлена на основании сравнительного анализа последовательностей этого фермента с другими, для которых достоверно известны их функции. А консорциум GO может просто не успел соотнести термины для этой записи GO, в которых могло бы указываться компьютерное доказательство функции. Так или иначе, можно с несколько большей уверенностью утверждать, что оба белка - синтазы и участвуют в аналогичных процессах.

Здесь интересно отметить следующее: эукариотческий фермент находится в митохондрии клетки (доказательство: IDA - непосредственный эксперимент), а как известно Escherihia coli является граммотрицательной бактерией. Согласно эндосимбиотической теории, митохондрии эукариот произошли именно от граммотрицательных бактерий, которые с помощью фагоцитоза были доставлены в клетку и начали выполнять свою роль, как "энергетические станции" эукариотической клетки. Так вот этот факт можно также использовать в пользу неслучайного совпадения функций синтаз, так как консервативные метаболитические процессы часто реализуются определенным набором ферментов, который довольно сильно подвержен отбору (возможно, стабилизирующему). Отчего в процессе эволюции последовательности ферментов не могли далеко разойтись, и между ними можно найти определенное функционаольное и структурное родство (действительно, как было отмечено на первом шаге, всего лишь на 24 аминокислоты отличаются длины последовательностей белков, т. е. "кратчайший" сценарий эволюции - произошли вставки в последовательность гена митохондриальной синтазы (и/или делеции в бактериальной синтазе), общей длиной 72 п.н. (24*3), правда без учета возможных нуклеотидных замен).

На третьем шаге для выяснения количественного и качественного сходства между синтазами, их последовательности были сохранены в одном файле с помощью использования соответствующей опции на сервере SRS: save в Fasta-формате. Сперва, раз длины последовательностей отличаются в основном внутри домена (так как только две аминокислоты эукариотической синтазы расположены на N-конце, то остальные 22 аминокислоты, на которые она отличается от бактериальной синтазы, расположены где-то внутри домена), то можно воспользоваться выравниванием последовательностей доменов, предлагаемым на странице Pfam. Итак, на странице описания доменной структуры синтаз в окошке "Alignment" было выбрана опция "Full" и скачано выравнивание всех 352 белков, отнесенных к этому семейству, в формате MSF. Затем, в этом выравнивании с помощью программы Genedoc удалялись все "лишние" последовательности, и оставлялись лишь последовательности двух синтаз: PTPS_ECOLI, PTPS_HUMAN. В результате получен следующий вид выравнивания:



Окраска консервативных остатков остатков специально не была убрана, так как она отражает сходство соответствующих последовательностей с теми, которые были удалены из общего выравнивания последовательностей доменов, относящихся к одному семейству. Как видно, выравнивание довольно хорошее, и вставки действительно локализуются в последовательности эукариотического фермента (и/или делеции - в бактериальном ферменте). Согласно статистическому отчету (statistical report) ID = 25%, Similarity = 44%. Главное преимущество этого неизмененного выравнивания, на мой взгляд, - оно отражает гомологию именно доменов последовательностей целого семейства (352 белка), фактически локальное выравнивание. Главное, также есть участки высокого сходства, которые впоследствии также интересно проанализировать. Также, была предпринята попытка сделать выравнивание последовательностей методом множественного выравнивания ClustalW. Для этого на сервере EBI вызывалась программа ClustalW, для которой на вход подавался файл с сохраненными последовательностями синтаз. В результате получено следующее выравнивание:



Визуально, выравнивание лучше, но надо иметь ввиду, что на вход программе подавались полные последовательности ферментов (хотя только две аминокислоты эукариотической синтазы фактически добавились к общему выравниванию). Итак, по данным статистического отчета ID = 28%, Similarity = 50%. Но несколько настораживают наличие гэпов длиной в одну аминокислоту, что в принципе не может свидетельствовать в пользу этого выравнивания, но этот факт стоит проверить ещё со структурным выравниванием (см. далее).
Также были сделаны выравнивания с помощью программ needle и water пакета EMBOSS, инкомпилированных в командную строку Unix. Обе программы использовались по умолчанию, с предлагаемыми ими установками значений штрафа за открытие гэпа = 10.0 и штрафа за его увекличение = 0.5. В строку Unix вводились следующие команды:

needle seq1.fasta seq2_hum.fasta

water seq1.fasta seq2_hum.fasta


В выходных файлах содержались следующие данные:

Глобальное выравнивание, построенное программой needle
#=======================================
#
# Aligned_sequences: 2
# 1: PTPS_ECOLI
# 2: PTPS_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 150
# Identity (ID): 47/150 (31.3%)
# Similarity:    75/150 (50.0%)
# Gaps:          34/150 (22.7%)
# Score: 153.5
# 
#
#=======================================

PTPS_ECOLI         1 MMST---------TLFKDFTFEAAHRL--------PHVPEGHKCGRL--H     31
                      |||         .:.:..:|.|:|||        .::....||...  |
PTPS_HUMAN         1 -MSTEGGGRRCQAQVSRRISFSASHRLYSKFLSDEENLKLFGKCNNPNGH     49

PTPS_ECOLI        32 GHSFMVRLEITGEVDPHTGWIIDFAELK-----AAFKPTYERLDHHYLN-     75
                     ||::.|.:.:.||:||.||.:::.|:||     |..:|    |||..|: 
PTPS_HUMAN        50 GHNYKVVVTVHGEIDPATGMVMNLADLKKYMEEAIMQP----LDHKNLDM     95

PTPS_ECOLI        76 DIPGLEN--PTSEVLAKWIWDQVKPVVP--LLSAVMVKETCTAGCIYRGE    121
                     |:|...:  .|:|.:|.:|||.::.|:|  :|..|.|.||.....:|:||
PTPS_HUMAN        96 DVPYFADVVSTTENVAVYIWDNLQKVLPVGVLYKVKVYETDNNIVVYKGE    145


#---------------------------------------
#---------------------------------------
 


Так как программа needle строит глобальное выравнивание с помощью алгоритма N-W, отчего видно большое количество гэпов как в последовательности бактериального, так и эукариотического фермента. Вообще, я бы не стал доверять такому выравниванию без знания структур белков, так как последовательное нахождение гэпов, с отступом друг от друга в 5 аминокислот (см. средняя строка выравнивания) либо говорит о наличии здесь большой петли, длиной в эти два гэпа, либо между гэпами есть очень короткий тяж или спираль. В оба варианта верится с трудом, если принять во внимание малую длину последовательност белков)

Локальное выравнивание, построенное программой water
#=======================================
#
# Aligned_sequences: 2
# 1: PTPS_ECOLI
# 2: PTPS_HUMAN
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 131
# Identity:      44/131 (33.6%)
# Similarity:    70/131 (53.4%)
# Gaps:          24/131 (18.3%)
# Score: 155.5
# 
#
#=======================================

PTPS_ECOLI        11 TFEAAHRL--------PHVPEGHKCGRL--HGHSFMVRLEITGEVDPHTG     50
                     :|.|:|||        .::....||...  |||::.|.:.:.||:||.||
PTPS_HUMAN        19 SFSASHRLYSKFLSDEENLKLFGKCNNPNGHGHNYKVVVTVHGEIDPATG     68

PTPS_ECOLI        51 WIIDFAELK-----AAFKPTYERLDHHYLN-DIPGLEN--PTSEVLAKWI     92
                     .:::.|:||     |..:|    |||..|: |:|...:  .|:|.:|.:|
PTPS_HUMAN        69 MVMNLADLKKYMEEAIMQP----LDHKNLDMDVPYFADVVSTTENVAVYI    114

PTPS_ECOLI        93 WDQVKPVVP--LLSAVMVKETCTAGCIYRGE    121
                     ||.::.|:|  :|..|.|.||.....:|:||
PTPS_HUMAN       115 WDNLQKVLPVGVLYKVKVYETDNNIVVYKGE    145


#---------------------------------------
#---------------------------------------


Локальное выравнивание, построенное согласно алгоритму S-W, искусственно повышает значения ID и Similarity, что совершенно не имеет никакого биологического смысла. Также границы локального выравнивания очень сильно не соотвествуют границам доменов (если мы считаем, что локальное выравнивание отражает сходство именно доменной организации белков).
Вывод: из всех построенных выравниваний, хотелось бы проверить на достоверность только то, что построено программой ClustalW и получено из базы данных Pfam на странице семейства доменов соответствующих синтаз.

Для выяснения того, как вторичная структура соотносится с выравниванием первичной структуры, были предприняты следующие действия. В PDB-банке с помощью фразы "6-pyruvoyl tetrahydrobiopterin synthase" был проведен поиск синтаз с известной вторичной структурой. В результате была составлена выбока из шести структурных файлов .pdb: 1GTQ, 1B66, 2G64, 1B6Z, 1Y13, 2A0S. В основном, они принадлежат разным организмам, поэтому можно считать выборку довольно надежной и достоверной. Затем на сервере EBI с помощью программы SSM было построено структурное выравнивание, приведенное ниже:

Структурное выравнивание синтаз; характерный элемент альфа/бета белков расположен справа, область низкой выравненности находится слева.


Как видно из рисунка, последовательности наиболее лучшим способом выравниваниются в области характерной топологии "альфа/бета" белков (область чередования структурных элементов: альфа-спираль; бета-тяж; альфа-спираль), причем бета-лист и расположенные над ним альфа-спирали, фактически, одинаковы во всех последовательностях, что позволяет предполагать, что именно этот участок играет роль в функционировании синтаз. Тогда как участок низкой структурной выравненности имеет множество различных вторичных элементов в каждой из последовательностей. Так, участки наиболее лучшего структурного выравнивания можно наблюдать на следующем изображении:

Структурное выравнивание синтаз; характерный элемент альфа/бета белков выделен цветом, соответствующим каждой последовательности, и очень хорошо выравнен между ними, область низкой выравненности находится слева и плохо выравнена: эта область не окрашена (представлена серым цветом).


Вывод: на мой взгляд, стоит руководствоваться следующими соображениями: если исследуемые последовательности будут хорошо выравниваться с полученным структурным выравниванием и в них четко будет локализоваться этот высококонсервативный фрагмент вторичной структуры (который на картинке выше был окрашен), то в совокупе с выше сказанными утверждениями, можно утверждать, что данные последовательности действительно довольно сходны и выполняют одну роль в клетке - синтазную активность.
Итак, на четвертом шаге, полная выборка белков из БД Pfam (352 последовательности), содержащей также исследуемые последовательности, вместе с последовательностями белков с установленной структурой были выравнены с помощью программы ClustalW. В полученное большое выравнивание экспортировалось структурное выравнивание в FASTA-формате, которое было сохранено по результатам программы SSM. В это новое, уже уменьшенное, выравнивание импортировались строки "ss_NNNN", в которые вносилась информация о вторичной структуре файлов NNNN.pdb. Эта информация целиком содержится в соответствующих файлах .pdb. В результате имеем следующее выравнивание (с небольшой ручной коррекцией, ограничиваемой лишь подведением очевидно совпадающих аминокислот друг против друга):

Выравнивание ClustalW для 352 белков (из списка удалены 350 последовательностей) и добавленного структурного выравнивания, полученного с помощью программы SSM. Обозначения: - альфа-спираль, - бета-тяж.


Как видно выравнивание структурных файлов "по гомологии" с последовательностями с неизвестной структурой (интересующие нас белки) очень хорошее и главное достоверное, так как ни одной вставки/делеции не локализуется в элементах вторичной структуры каждой последовательности. Красным цветом отмечены остатки пролина, которые вызывают такой сильный излом последовательности белка в этом сегменте, что фактически "разбивает" один бета-тяж на два куска разной длины. Видимо, наличие этих остатков обуславливает "неидеальное" выравнивание соответствующих бета-тяжей в данном сегменте (так как внося излом, пролин нарушает непрерывность бета-тяжа). Желтым выделены элементы вторичной структуры, которые встретились во всех структурах, и видимо образующих "ядро" белка. Причем основные блоки высокой консервативности (те области выравнивания, в которых аминокислотные остатки покрашены черным) как раз совпадают с этими структурными элементами. Для большего понимания и простоты изложения, приведено изображение консервативных элементов:

Консервативный структурный элемент исследованных синтаз: четыре бета-тяжа, образующих плотный бета-лист, две альфа-спирали, расположенные над ним; по ходу полипептидной цепи наблюдается характерная топология альфа/бета белков с укладкой вторичных элементов Россмана.


Итак, высокое сходство последовательностей PTPS_HUMAN, PTPS_ECOLI с последовательностями структурных файлов позволяет сделать следующие выводы: согласно выравниванию (консервативные области локализуются в местах консервативной вторичной структуры) можно предсказать вторичную структуру PTPS_HUMAN, PTPS_ECOLI "по гомологии", фактически показав идеальное совпадение исследуемых белков со структурой консенсусной синтазы (имеется ввиду то, что исследуемые ферменты согласно выравниванию, также содержат характерный, консервативный элемент вторичной структуры, приведенный на рисунке выше). Тогда, ссумируя все полученные результаты, можно сказать, что сходство последовательностей очень высокое не только по первичной структуре, но также и по вторичной. Следовательно, можно с уверенностью говорить о наличии гомологичных синтаз с гомологичными (а не аналогичными!!) доменами.



©Володя Рудько