Сравнение разных способов оценки эволюционных расстояний между гомологичными нуклеотидными последовательностями

Зависимости различных оценок эволюционных расстояний от истинных расстояний
     На основе выравнивания последовательностей (все последовательности были записаны в один файл, который мы объявили выравниванием, потому что наша модель не предполагала делеций и вставок), созданных по используемой модели эволюции, мы построили матрицы попарных расстояний. Попарные расстояния оценивались либо по количеству несовпадающих нуклеотидов на 100 позиций, либо по методу Джукса - Кантора. Подсчет осуществлялся с помошью программы distmat пакета EMBOSS. Полученные данные были сведены в одну таблицу. На их основе мы построили график.
     Таким образом мы оценивали границы применимости искусственных оценок: количества несовпадающих позиций на 100 позиций и оценки по методу Джукса - Кантора. Идеальной считалась линейная зависимость оценки от истинного расстояния (линия truth на графике).
     Здесь стоит обсудить способ получения родственных последовательностей. Мы использовали случайные точечные замены нуклеотидов в "предковой последовательности" для получения "последовательности потомка". При этом все замены были объявлены равновероятными. Это условие стоит учитывать при анализе графика, который вы видите слева.
     Представленные данные говорят о следующем:

     Оценка №1: Количество несовпадений на 100 позиций

  • Линия D на графике.
  • По определению не может быть более 100. А по вероятностным соображениям (математическое ожидание совпавших позиций равно 25) не может быть больше 75. По этой причине некорректно использовать этот метод для оценки последовательностей, различающихся более чем на 75 замен на 100 позиций.
  • Как видно из графика в промежутке от 0 до 75 замен этот метод дает вполне приемлимые результаты.
  • Но лучше всего он смотрится на отрезке от 0 до 40.
  • Однако результаты приемлимы только для нашей модели: в ней и в данном методе сделано огромное допущение о равновероятности всех замен. А мы знаем, что это отнюдь не так.

     Оценка №2: Метод Джукса - Кантора

  • Линия Jukes-Cantor на графике.
  • Метод на всем рассматриваемом отрезке выглядит лучше, чем предыдущая оценка. Но больше всего видны его преимущества на расстояниях больше 40. Дело в том, что на больших расстояниях слишком вероятны повторные мутации по одной и той же позиции. Предыдущий метод не рассматривает эту возможность. А метод Джукса - Кантора - учитывает.
  • Кроме того, метод Джукса - Кантора позволяет работать на расстояниях более 75 замен на 100 позиций.
  • Из графика видно, что метод Джукса - Кантора дает правдивую оценку на расстояниях от 0 до 120.
  • Полученные данные нельзя считать идеальными по простой причине: метод Джукса - Кантора рассматривает нуклеотидные замены как разновероятные, а наша модель эволюции как равновероятные. В результате этого по полученным данным на расстояниях более 120 оценка кажется весьма неточной. Как ведет себя такая оценка в реальности, еще большой вопрос.


© Решетов Денис, 2005