Главная страница > Четвертый семестр > Элементарные эволюционные события 

Элементарные эволюционные события


    Сравнение разных способов оценки эволюционных расстояний между нуклеотидными последовательностями

    Модель последовательной эволюции гена glmS E.coli, включающей в себя шесть этапов, была создана с помощью программы msbar пакета EMBOSS. Считалось, что на каждом этапе эволюции происходили только замены нуклеотидов (в реальных биологических системах частота прочих типов мутаций, таких как вставки, делеции, дупликации и др., как правило, пренебрежимо мала по сравнению с частотой замен). Для того, чтобы программа msbar производила только замены нуклеотидов, значение параметра* point было установлено равным 4. Количества замен в последовательности рассматриваемого гена на каждом из этапов эволюции были приняты равными 183, 183, 549, 366, 915 и 915 (приблизительно 10, 10, 30, 20, 50 и 50 замен соответственно на каждые 100 нуклеотидов; длина гена glmS E.coli составляет 1830 н.п.). Текст скрипта Linux, создающего файл c мутантными последовательностями гена glmS E.coli, приведен здесь. Позиции мутантных последовательностей, по которым произошли замены, показаны прописными буквами.

    Оценка эволюционных расстояний между последовательностями была проведена с помощью программы distmat пакета EMBOSS. Были применены два метода оценки: измерение количества попарных различий между последовательностями и оценка по методу Джукса-Кантора (параметр nucmethod установлен равным 0 и 1 соответственно). На вход программы distmat необходимо подать файл, содержащий множественное выравнивание анализируемых последовательностей, в данном случае соответствующий файлу с мутантными последовательностями (в ходе "эволюции" происходили только замены). Запуск программы был осуществлен следующими командами Linux:

distmat -sequence mutants.fasta -outfile matrix1.txt -nucmethod 0 -auto
distmat -sequence mutants.fasta -outfile matrix2.txt -nucmethod 1 -auto

    Полученные матрицы эволюционных расстояний были импортированы в электронную таблицу Excel для дальнейшего анализа (см. книгу dist.xls). График, показывающий зависимость двух оценок эволюционных расстояний (количество попарных различий между последовательностми и оценка по методу Джукса-Кантора) от истинных расстояний, приведен на рис. 1.


*  Для получения информации о значении параметров потоки stdout и stderr программ msbar и distmat при запуске с параметром -help (содержат информацию о значении параметров запуска программ) были перенаправлены в текстовые файлы. Параметр auto указывает программам на то, что значения незаданных параметров следует принять по умолчанию.


  

    Рис. 1. Зависимость двух оценок эволюционных расстояний (D - количество попарных различий между последовательностями, JC - оценка по методу Джукса-Кантора) от истинных эволюционных расстояний (T). Для сравнения приведены прямые T и 3/4 T (пояснения см. в тексте). Истинные расстояния и их оценки измерялись в количествах замен на каждые 100 нуклеотидов.


    Анализ графика, представленного на рис. 1, позволил сделать следующие выводы:

    Отклонение количества попарных различий между последовательностями от истинного эволюционного расстояния между ними является следствием того, что в процессе "эволюции" гена glmS E.coli некоторые его позиции претерпевали мутации по несколько раз. В результате различие последовательностей по одной позиции не всегда соответствует одному эволюционному событию. Кроме того, повторные мутации по одной и той же позиции гена могли приводить к восстановлению исходного нуклеотида, что также не учитывается данным методом оценки. Следует отметить, что максимальное количество попарных различий (приблизительно 60 на каждые 100 нуклеотидов) не превышает 75%. Это связано с тем, что вероятность совпадения двух случайных нуклеотидов составляет 25% (то есть две случайные нуклеотидные последовательности одинаковой длины совпадут приблизительно на 25%). Аналогичным образом можно вычислить максимальное количество попарных различий между двумя аминокислотными последовательностями, которое составляет 95% (в состав белков входят, как правило, 20 различных аминокислот).

    Отклонение оценки, сделанной по методу Джукса-Кантора, от истинного эволюционного расстояний между рассматриваемыми последовательностями связано с различием в "понимании" нуклеотидных замен алгоритмом msbar и моделью Джукса-Кантора. Подробное рассмотрение мутантных вариантов гена glmS E.coli и их сравнение с исходным вариантом последовательности подтвердило, что при генерации мутантных последовательностей программа msbar осуществляет замены на каждый из четырех возможных нуклеотидов (с равной вероятностью). Таким образом, нуклеотид A может быть заменен как на G, C, T с вероятностями по 25%, так и на A с той же вероятностью. Последний вариант замены не рассматривается в качестве таковой моделью Джукса-Кантора (при сравнении исходной и мутантной последовательностей невозможно установить, произошла ли замена A на A на заданной позиции). Следовательно, истинные эволюционные расстояния (то есть значения параметра -count программы msbar) должны в 4/3 раза превышать оценку, сделанную по методу Джукса-Кантора, что и наблюдается в действительности. С учетом этой поправки данная оценка точно согласуется с истинными эволюционными расстояниями на всем протяжении рассматриваемого интервала (см. рис. 1).

    При оценивании эволюционных расстояний между реальными последовательностями по методу Джукса-Кантора могут возникать ошибки, обусловленные различиями между вероятностями замен различных нуклеотидов (что, в свою очередь, связано с химическими свойствами азотистых оснований: частота транзиций как правило выше частоты трансверсий). Модель Джукса-Кантора рассматривает все нуклеотидные замены как равновероятные, что в большинстве случаев не вполне соответствует действительности. Более сложные модели, позволяющие оценивать эволюционные расстояния между нуклеотидными последовательностями, учитывают вероятности различных типов замен (Takahashi and Nei, 2000). Например, один из таких алгоритмов реализован в пакете MEGA (Kumar et al., 2004). Помимо нуклеотидных последовательностей, для вычисления эволюционных расстояний между исследуемыми генами могут быть использованы аминокислотные последовательности их продуктов. В этом случае для сравнения вероятностей замен аминокислотных остатков используют коэффициенты матриц замен аминокислотных остатков, таких как BLOSUM62 (Sonhammer and Hollich, 2005).

    В процессе эволюции происходят не только замены, но и другие типы мутаций (например, дупликации), которые также не учитываются моделью Джукса-Кантора и могут приводить к возникновению существенных ошибок в результате ее применения. Тем не менее, оценка по Джуксу-Кантору является более точной, чем простое измерение попарных различий между последовательностями.

 

    Описание элементарных эволюционных событий для случая трех замен в одном кодоне

    Рассмотрены последовательности эволюционных событий, приводящих к преобразованию цистеинового кодона TGC в глутаминовый кодон CAG. Минимальное количество эволюционных событий (замен), необходимых для осуществления преобразования, - три (последовательности, включающие в себя большее количество эволюционных событий, являются менее вероятными). Все возможные последовательности, состоящие из трех эволюционных событий, показаны на рис. 2. Общее количество таких последовательностей - четыре, а не шесть, как можно было бы предположить. Это связано с тем, что два из них проходят через стоп-кодон TAG. Мутация, приводящая к появлению стоп-кодона, с высокой вероятностью вызовет потерю белком возможности выполнения своей функции и, в результате, будет элиминирована отбором. Таким образом, осуществление последовательностей эволюционных событий, проходящих через стоп-кодоны, крайне маловероятно.

    Следует отметить, что оставшиеся четыре пути преобразования вряд ли являются равновероятными (особенно если рассматриваемый триплет кодирует аминокислотный остаток, расположенный вблизи активного центра). Для сравнения вероятностей возникновения различных мутаций можно, например, использовать коэффициенты из матриц замен аминокислотных остатков серии BLOSUM (например, BLOSUM62). Тем не менее, вероятности осуществления четырех не проходящих через стоп-кодоны путей значительно меньше отличаются друг от друга, чем от вероятности осуществления путей, проходящих через стоп-кодоны. Поэтому при вычислении значений Ka и Ks вероятности осуществления четырех не содержащих стоп-кодонов путей считались равными друг к другу.

    Первый (TGCCGCCACCAG), третий (TGCTACCACCAG) и четвертый (TGCTGGCGGCAG) пути эволюционных событий включают в себя по три несинонимичные замены, второй (TGCCGCCGGCAG) - две несинонимичных и одну синонимичную замену. Среднее количество несинонимичных сайтов для первого пути составляет 22/9, второго 19/9, третьего 24/9 и четвертого 22/9, среднее количество синонимичных сайтов 5/9, 8/9, 3/9 и 5/9 соответственно (общее количество сайтов для каждого пути равняется трем). Таким образом, значения Ka(i) и Ks(i) для каждого пути (i = 1, 2, 3, 4) составляют:

Ka(1) = 3 / (22/9) = 1.23,
K
a(2) = 2 / (19/9) = 0.95,
K
a(3) = 3 / (24/9) = 1.13,
K
a(4) = 3 / (22/9) = 1.23;

Ks(1) = 0 / (5/9) = 0.00,
K
s(2) = 1 / (8/9) = 0.89,
K
s(3) = 0 / (3/9) = 0.00,
K
s(4)
= 0 / (5/9) = 0.00.

    Среднее значение Ka по всем путям (при условии равновероятности путей, см. выше) составляет 1.14, Ks 0.22. Следовательно, отношение Ka/Ks для данного преобразования кодонов составляет 5.18, то есть преобразование гипотетического полипептида*, кодируемого нуклеотидной последовательностью (TGC)n в полипептид, кодируемый последовательностью (CAG)n, вероятно, является следствием движущего отбора (что и следовало ожидать исходя из того, что аминокислотный состав рассматриваемого полипептида полностью изменился).


*  Отношение Ka/Ks для отдельно взятого кодона не представляется несущим биологический смысл.


  

    Рис. 2. Минимальные возможные пути эволюционного преобразования кодона TGC в кодон CAG, не проходящие через стоп-кодоны. Кодоны, соответствующие различным аминокислотным остаткам, показаны цветами. Позиции, по которым произошли мутации на предыдущих этапах преобразования, подчеркнуты.


 

    Сравнение давления отбора на разные гены

    С помощью программы PAL2NAL были вычислены значения Ka/Ks для двух бактериальных генов glmS, кодирующих один из ферментов промежуточного обмена (глюкозамин-6-фосфатсинтазу), и двух генов белка оплодотворения брюхоногих моллюсков из рода Haliotis (морское ушко).

    Были рассмотрены гены glmS из E.coli и Vibrio cholerae. Данные организмы являются родственными (принадлежат к одному и тому же классу Gammaproteobacteria).  Продукт гена glmS V. cholerae был выявлен с помощью программы BLASTP как белок, идентичный продукту гена glmS E.coli на 71% (см. выравнивание). Последовательности генов и их продуктов были взяты из базы данных EMBL (коды доступа записей X01631 и AE004135 для glmS E.coli и glmS V. cholerae соответственно). Рассмотренные последовательности генов белков оплодотворения и их продуктов из организмов H.rufescens и H.sorenseni взяты из записей EMBL L36553 и L36553. Несмотря на то, что оба организма принадлежат к одному и тому же роду, данные белки идентичны приблизительно на 86%. Выравнивание белковых последовательностей было проведено с помощью программы ClustalW (см. результаты выравнивания).  Следует отметить, что белки каждой пары, вероятно, являются ортологами, так как имеют сходные аминокислотные последовательности и выполняют одинаковые функции.

    Программа PAL2NAL предназначена для преобразования множественных выравниваний белков с известными последовательностями генов в выравнивания нуклеотидных триплетов. Такое выравнивание (на основе построенных выравниваний аминокислотных последовательностей) является более надежным и биологически осмысленным, чем выравнивание нуклеотидных последовательностей, построенное напрямую (например, программой needle). Это обусловлено следующими причинами:

    На основе построенного выравнивания триплетов для последовательностей не более чем двух генов программа осуществляет вычисление значений Ka, Ks и их отношения Ka/Ks. Для этого необходимо отметить флажками следующие опции: "Remove gaps, inframe stop kodons - Yes" (так как значения Ka и Ks определены только для последовательностей одинаковой длины, выровненных друг с другом на всем своем протяжении, и не несут биологического смысла для некодирующих участков последовательностей) и "Calculate Ka and Ks - Yes". Вычисление значений Ka и Ks осуществляется программой codeml пакета PAML. Значение Ka/Ks позволяет делать выводы о характере отбора, воздействующего на рассматриваемые последовательности.

    Результаты выравнивания триплетов каждой пары генов представлены в html-файлах (см. выравнивание генов glmS и выравнивание генов белка оплодотворения). Стоп-кодоны обеих последовательностей и лишний триплет последовательности glmS V.cholerae (отсутствующий в составе гена glmS E.coli) были удален программой в соответствии с заданными параметрами (см. выше). Отношение Ka/Ks для бактериальных генов glmS составило приблизительно 0.08, для генов белка оплодотворения - 5.57.

    Следовательно, на бактериальный ген glmS действует преимущественно стабилизирующий отбор (значение Ka/Ks значительно меньше единицы). Это может быть связано с тем, что продукт данного гена непосредственно принимает участие в процессе метаболизма (катализирует одну из реакций промежуточного обмена). Катализируемая реакция, по-видимому, играет существенную роль в обеспечении нормальной жизнедеятельности клетки. Большинство изменений последовательности данного фермента приведут к уменьшению его активности, вследствие чего приспособляемость мутантного организма к окружающим условиям понизится. Такие изменения будут элиминироваться естественным отбором. Таким образом, имеет место форма отбора, обуславливающая сохранение адаптационных признаков при неизменных условиях окружающей среды, то есть стабилизирующий отбор [1]. Если выращивать бактерий на искусственной среде, которая может быть эффективно метаболизирована без участия глюкозамин-6-фосфатсинтазы, роль последней понизится, и воздействие на нее стабилизирующего отбора будет ослаблено. В этом случае "появится возможность" видоизменить глюкозамин-6-фосфатсинтазу для выполнения какой-либо сходной, но более значимой реакции, то есть вместо стабилизирующего отбора на ген glmS будет воздействовать движущий отбор.

    Высокое значение Ka/Ks для белков оплодотворения моллюсков из рода Haliotis свидетельствует о воздействии движущего отбора. Это может быть связано с функцией, выполняемой данным белком - обеспечением видоспецифичного узнавания яйцеклеток спермиями [2]. Если бы последовательность белка оплодотворения была бы более консервативной, часть гамет взаимодействовала бы с гаметами близких видов, образуя в результате оплодотворения нежизнеспособные зиготы. Это бы приводило к уменьшению плодовитости таких организмов, и в результате они бы элиминировались отбором. Таким образом, белок оплодотворения обеспечивает адаптацию к изменяющимся условиям окружающей среды (видообразование, приводящее к появлению новых близкородственных видов), то есть подвержен воздействию движущего отбора.

 


    1. Шмальгаузен И.И. Факторы эволюции, 2-е изд. Л.: "Наука", 1969.

    2. Гилберт С. Биология развития, в 3-х томах. М.: "Мир", 1993.

 


© Куравский Михаил Львович, 2007