Эволюция белков митохондриальных рибосом

Создание обучающей выборки

С помощью SRS были получены последовательности 9 белков L27 митохондриальных рибосом. Запрос в SRS проводился по полю "Description" и имел вид: (28S | 39S) & ribosomal & protein & L27.

Для белка RM27_HUMAN была определена доменная структура с помощью Pfam. Оказалось, что белок содержит единственный домен Ribosomal_L27 (PF01016), как и 7 других белков из этих 9. Однако один из белков (Q8IXM3, RM41_HUMAN) содержит совсем другой домен, а именно Pfam MRP-L27 (PF09809). В описании этого белка указано, что он является белком L41. Вероятно в выборку он попал из-за этого странного названия домена, поэтому его следует исключить.

Из 8 оставшихся белков 4 содержатся в множественном выравнивании для домена Ribosomal_L27, которое выдает Pfam, а еще 4 - нет. Последовательности первых четырех были извлечены из него, колонки только с гэпами - удалены.

Все 8 последовательностей были выровнены muscle, а к последовательностям в выравнивании програмой pfw были добавлены веса. Оказалось, что построенное выравнивание полностью соответствует выравниванию Pfam, поэтому оно и использовалось для построения профиля. Файлы с выравниваниями в формате Clustal, построенными Muscle и выданными Pfam приложены.

Профиль был построен программой pfmake и нормирован с помощью autoscale. Созданные простой и нормированный профили отличаются только значениями полей "MA /NORMALIZATION" (где различны значения коэффициентов R1 и R2 линейной функции, которая служит для нормировки профиля) и "MA /CUT_OFF" (где различны величины SCORE - пороговых значений для поиска)

Поиск гомологов по профилю, выбор порогового значения веса

По построенному профилю программой pfsearch осуществлялся поиск среди всех белков бактерий из таксонов Alphaproteobacteria и Gammaproteobacteria с тремя разными значениями порога. Для выбора оптимального порога было сделано следующее: белки-хиты профиля проверялись на принадлежность термину GO:0005840 - "ribosome", а также на наличие какого-либо описания GO типа "Клеточный компонент". Результаты приведены в таблице ниже. Скрипт, с помощью которого осуществлялась проверка, представлен здесь.

Таксон Порог Всего хитов GO:0005840 - "ribosome" Аннотаций типа "Клеточный компонент"
Alphaproteobacteria 5.0 160 75 137
Alphaproteobacteria 10.0 74 74 74
Alphaproteobacteria 30.0 1 1 1
Gammaproteobacteria 5.0 307 143 270
Gammaproteobacteria 10.0 140 140 140
Gammaproteobacteria 30.0 0 0 0

Исходя из данных таблицы, оптимальным порогом был выбран 10.0, т.к. почти все ассоциированные с рибосомами белки обнаруживались в обоих таксонах с ним и не находились "посторонние" белки. С таким порогом проводились дальнейшие расчеты.

Анализ распределений весов находок в разных таксонах

Для выбранного порога веса находок в таксонах Alphaproteobacteria и Gammaproteobacteria были сохранены в отдельном файле и были построены гистограммы их распределения. Получившийся файл представлен здесь. Исходные данные находятся на листе "data", а гистограмма - на листе "distribution". Сравнение гистограмм приведено также на рисунке ниже.

Визуально можно заметить, что распределение значений для Альфа-протеобактерий смещено в сторону больших значений. Это наблюдение подтверждается тестом на равенство медиан независимых выборок - критерием ранговых сумм Вилкоксона (или тестом Мана-Уитни). Были расчитаны следующие величины:

  • Медиана выбоки весов Альфа-протеобактерий M1, M1 = 27.615;
  • Медиана выбоки весов Гамма-протеобактерий M2, M2 = 26.202;
  • Статистика для выборки весов хитов в белках Альфа-протеобактерий U1, U1 = 7946;
  • Среднее значение статистики U, M(U) = 5180;
  • Стандартное отклонение статистики U, s(U) = 430,8.

    Если считать распределение U нормальным, вероятность такого отклонения практически равна 0 (p < 0.01), а значит гипотезу о равенстве медиан выборок следует отвергнуть.

    Получается, что белки из Альфа-протеобактерий по сравнению с белками из Гамма-протеобактерий значимо ближе к белкам, по которым строился исходный профиль - митохондриальным рибосомальным белкам L27.

    Филогенетический анализ

    Для создания out-группы было выбрано 7 белков из таксона Firmicutes, имеющих в описании сочетание "L27". Таким образом, всего в анализе использовались 229 последовательностей:

  • 7 последовательностей L27 из Фирмикутовых;
  • 8 последовательностей белков L27 митохондриальных рибосом;
  • 74 последовательности L27 из Альфа-протеобактерий;
  • 140 последовательностей L27 из Гамма-протеобактерий.

    Все они были выровнены с помощью muscle, результат был преобразован таким образом, чтобы удовлетворять требованиям входного формата программы promlk пакета PHYLIP. В результате было получено дерево по методу максимального правдоподобия (maximum likelihood). Оно было визуализировано с помощью сервиса Trex-online и приведено на рисунке ниже. Клады отмечены по таксономической принадлежности белков. Исходя из дерева можно сказать, что последовательности митохондриальных белков L27 ближе к Альфа-протеобактериям, чем к Гамма-протеобактериям.

    Было проведено сравнение попарных расстояний по Джуксу-Кантору, полученных с помощью protdist, между митохондриальными белками и белками, соответственно, Альфа-протеобактерий и Гамма-протеобактерий. Полученные гистограммы приведены на листе "comparison" здесь и ниже на рисунке. Видно, что в таксоне Alphaproteobacteria пик на гистограмме чуть смещен в сторону меньших значений, что согласуется с ранее сделанным выводом: белки Альфа-протеобактерий ближе к митохондриальным, чем белки Гамма-протеобактерий.

    ВЫВОД:

    Проводилось сравнение белков L27 из митохондрий с их гомологами из двух таксонов бактерий. С использованием митохондриальных белков был построен профиль. Затем проводился поиск с его помощью среди всех белков Альфа-протеобактерий и Гамма-протеобактерий. На основании проведенного исследования можно говорить о том, что митохондриальные рибосомальные белки L27 ближе к белкам Альфа-протеобактерий, чем к белкам Гамма-протеобактерий.