Проект "Эволюция белков митохондриальных рибосом".

Постановка задачи

Биологическая задача состоит в подтверждении или опровержении гипотезы о том, что митохондрии эукариот произошли от альфапротеобактерий, а не от гаммапротеобактерий.

Для решения этой задачи предлагается сравнить последовательности рибосомальных белков альфа- и гаммапротеобактерий с их ортологами из митохондрий.

Что надо сделать?

Для этого нужно создать выборку ортологичных белков из рибосом митохондрий и построить их множественное выравнивание. На основе полученного выравнивания создать профиль для поиска гомологов в бактериях. Провести поиск гомологов в двух группах бактерий. Провести статистический анализ результатов поиска. Дать ответ на поставленный вопрос. Затем построить филогенетическое дерево изучаемых последовательностей/доменов и потвердить или не потвердить сделанные ранее выводы.

Создание обучающей выборки, построение выравнивания и профиля.

Заданный рибосомальный белок из митохондрий эукариот - L24 (39S ribosomal protein L24, mitochondrial), длиной в 216 аминокислотных остатка (RM24_Human).
  1. С помощью cервера SRS из банка Swissprot было найдено 10 последовательностей заданного рибосомального белка из митохондрий разных эукариот, а также их коды доступа и идентификаторы.
    Вид запроса в SRS:
    Description: L24
    Description: 39S
    Keywords: ribosomal&mitochondrion

  2. При помощи сервера Pfam была определена доменная структура найденных белков: все белки содержали короткий мотив KOW (PF00467),длиной в 31 аминокислотный остаток.
    Данный мотив часто встречается в последовательностях рибосомальных белков.
    Ccылка на статью о данном мотиве в PubМed.


    Cхематичное изображение домена KOW.

    Далее было получено выравнивание всех доменов данного типа(всего 1883 последовательности).
    Из этого выравнивания при помощи скрипта было извлечено выравнивание доменов для всех найденных эукариотических рибосомальных белков L24 из митохондрий (п.1).
    При помощи программы GeneDoc в выравнивании были удалены колонки, состоящие только из гэпов.
    Выравнивание доменов.

  3. Выравнивание полных последовательностей найденных белков было построено с помощью программы muscle на kodomo-count.
    Веса последовательностей выборки были рассчитаны c помощью программы pfm пакета PFTOOLS.
    Вид запроса:
    muscle -in L24.fasta -out L24.ali
    pfw -m L24.ali > L24.weighted.ali


    Полученное выравнивание в Genedoc.


    Кроме того было построено выравнивание полных последовательностей по профилю полученного выравнивания из Pfam при помощи программы mafft.
    Вид запроса:
    mafft-linsi --seed pfam.ali --seed L24.weighted.ali /dev/null > output

    Полученное выравнивание mafft.

  4. Сравнение выравниваний из пунктов 3 и 2.
    Оба выравнивания(Pfam и muscle) полностью совпадают на заданном участке, однако поскольку выравнивание Pfam очень короткое(32 аминокислотных остатка), то для дальнейшего поиска целесообразнее брать выравнивание полных последовательностей, полученное при помощи программы muscle. Выравнивания mafft и muscle полностью совпадают.

  5. Построение и нормировка профиля по взвешенному выравниванию с помощью pfmake и autoscale.
    Вид запроса:
    pfmake -m L24.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf
    autoscale -m myprofile.prf > myprofile.scaled.prf


    "Простой" профиль.
    "Нормированный" профиль.
    Профиль строится по выравниванию заданных последовательностей, при этом каждой аминокислоте приписывается число, показывающее частоту ее нахождения в данной позиции выравнивания. При поиске по профилю каждой найденной последовательности приписывается вес, являющийся результатом сложения весов для каждой ее позиции: вес позиции равен весу аминокислотного остатка в этой позиции, взятого из профиля.

    Простой и нормированный профили отличаются значением SCORE(вес) в поле МА (СUT_OFF), а также коэффициентами R1 и R2 линейной функции нормирования в поле МА (NORMALIZATION).

Поиск гомологов по профилю, выбор порогового значения веса.

Дано: файлы со всеми аминокислотными последовательностями из альфа- и гаммапротеобактерий (Alphaproteobacteria.fasta, Gammaproteobacteria.fasta).
  1. C помощью программы pfsearch пакета PFTOOLS был проведен поиск гомологичных белков в обеих заданных группах бактерий с использованием нормированного варианта профиля и разными значениями порога (варианты - 5.0, 10.0, 30.0).
    Виды запросов:
    pfsearch -C X -f myprofile.scaled.prf Gammaproteobacteria.fasta > gamma.search
    pfsearch -C X -f myprofile.scaled.prf Alphaproteobacteria.fasta > alpha.search


    Выходные файлы программы с различными пороговыми значениями:

    ПорогAlphaproteobacteriaGammaproteobacteria
    5.0237 находок. 592 находки.
    10.073 находки.46 находок.
    30.0Ничего не найдено.Ничего не найдено.
    7.079 находок.141 находка.
    15.044 находки.Ничего не найдено.


  2. Для выбора из результатов поиска последовательности с заданным GO идентификатором был использован следующий скрипт.

    Таблица 1. Alphaproteobacteria.
    ПорогОбщее количество находокКоличество находок с GO идентификатором "ribosome" (0005840)Количество находок с GO идентификатором "large ribosomal subunit"(0015934)Количество находок с GO идентификатором "small ribosomal subunit"(0015935)
    5.02378803
    7.0797500
    10.0737300
    15.0444400

    Таблица 2. Gammaproteobacteria.
    ПорогОбщее количество находокКоличество находок с GO идентификатором "ribosome" (0005840)Количество находок с GO идентификатором "large ribosomal subunit"(0015934)Количество находок с GO идентификатором "small ribosomalsubunit"(0015935)
    5.059214603
    7.014014000
    10.0734600


    Выводы:
    1.Был произведен поиск по GO-идентификатору "ribosome" с порогами 5, 7, 10, 15, 30, при этом общее число находок как для альфапротеобактерий, так и для гаммапротеобактерий постепенно уменьшалось.
    При пороге 5.0 в обоих случаях было найдено достаточно много последовательностей, однако не все из них являлись последовательностями рибосомальных белков L24.
    При пороге 7.0 в обоих случаях все последовательности являлись последовательностями рибосомальных белков L24.Этот порог мог бы быть принят за оптимальный.
    Однако если рассматривать находки для гаммапротеобактерий при порогах 7.0 и 10.0, можно заметить, что их количество уменьшается практически в 3 раза за счет того, что при пороге 7.0 находятся в основном последовательности с весом меньше 10. В случае альфапротеобактерий число находок при данных порогах меняется не слишком сильно (с 75 до 73).
    При более высоких порогах программой pfamsearch вообще не находятся последовательности для гаммапротеобактерий на уровне 15.0 и для альфапротеобактерий на уровне 30.0.
    Таким образом, за оптимальный порог в этом случае было принято решение взять порог 10.0.

    2.Поиск по GO-идентификатору "large ribosomal subunit" не дал результатов.
    Поиск по GO-идентификатору "small ribosomal subunit" дал три последовательности: в обоих случаях было найдено по три последовательности при пороге 5.0,все они не являлись последовательностями рибосомальных белков L24.
    При более высоких порогах поиск по данному идентификатору не дал никаких результатов, из чего можно заключить, что при более высоких порогах находками являлись рибосомальные белки L24, непроаннотированные, но принадлежащие большой субъединице рибосомы.
    Таким образом, можно заключить, что поиск по идентификатору "большая или малая частица рибосомы" практически не дает объективных результатов о подходящем значении порога.

    Анализ результатов


    1. Поиск последовательностей был произведен по нормированному профилю с пороговым значением 10.0. При помощи Excel были получены гистограммы распределения весов находок для альфа- и гаммапротеобактерий.

      Гистограмма распределения весов в находках с порогом 10.0 для альфа- и протеобактерий.



      Как видно из построенной гистограммы, распределение весов последовательностей для альфапротеобактерий по форме близко к плотности нормального распределения, тогда как о распределении весов в случае гаммапротеобактерий нельзя сказать ничего конкретного. при этом пороговом уровне средний и максимальный веса последовательностей в случае альфапротеобактерий выше (примерно 16.0), чем в случае гаммапротеобактерий (примерно 12.0 и 14.0).
      На основании этого можно сделать вывод, что найденные последовательности белков из альфапротеобактерий имеют большее сходство к профилю, построенному по выравниванию аминокислотных последовательностей рибосомальных белков из эукариот, следовательно большее сходство к последовательностям рибосомальных белков L24 митохондрий эукариот.


    2. Сравнение распределений весов находок в двух группах бактерий с помощью теста Вилкоксона.
      С помощью пакета STADIA был проведен тест Вилкоксона, а также были рассмотрены свойства двух выборок с помощью функции "описательная статистика".
      Согласно проведеннному тесту между медианами весов последовательностей в группах двух бактерий есть различия. Кроме того, было выяснено,что медиана и среднее для весов последовательностей из альфапротеобактерий выше, чем для гаммапротеобактерий. Из этого можно заключить, что последовательности из альфапротеобактерий ближе к последовательностям рибосомальных белков L24 эукариот.

    Филогенетический анализ.

    1. При помощи сервера SRS было получено 7 последовательностей рибосомальных белков из Firmicutes, имеющих то же название, что и заданный белок,но разных родов.Из этих последовательностей была составлена внешняя группа.
      Вид запроса:
      Description: L24
      Taxonomy:Firmicutes

      Кроме того, был получен файл со всеми последовательностями из альфа- и гаммапротеобактерий, последовательностями из эукариот и фирмикут.
      Выборка последовательностей.
      Группа организмовЧисло последовательностей.
      Eucaryota10
      Alphaproteobacteria73
      Gammaproteobacteria46
      Firmicutes7

      При помощи программы muscle было построено объединенное выравнивание митохондриальных белков и белков из рибосом альфа-, гаммапротеобактерий и фирмикут.

    2. Вид запроса:
      muscle -in 1.fasta -out new1.ph
      Полученное выравнивание.

    3. Построение филогенетического дерева методом максимального правдоподобия.
      Дерово было построено по выравниванию всех последовательностей методом максимального правдоподобия при помощи программы proml пакета PHYLIP.
      В качестве out-группы рассматривались последовательности белков из Firmicutes.


      На построенном филогенетическом дереве выделены отдельные группы организмов.
      Можно заметить, что относительно группы фирмикут дерево разделилось на 2 ветви: 1 - большая часть последовательностей из альфапротеобактерий и 2 - остальная часть последовательностей из альфапротеобактерий, последовательности из гаммапротеобактерий, последовательности митохондриальных белков эукариот.
      На рисунке видно, что группа последовательностей митохондриальных белков эукариот отделилась от последовательностей альфапротеобактерий 2-й ветви. Две наиболее близкие к ним последовательности белков альфапротеобактерий - RL24_ORITB и RL24_PELUB - принаджежат к одному и тому же порядку Rickettsiales.
      Taxonomy данных белков:
      1)RL24_ORITB:
      Bacteria; Proteobacteria; Alphaproteobacteria; Rickettsiales; Rickettsiaceae; Rickettsieae; Orientia.
      2)RL24_PELUB: Bacteria; Proteobacteria; Alphaproteobacteria; Rickettsiales; SAR11 cluster; Candidatus Pelagibacter.



    4. Определение попарных эволюционных расстояний по Джуксу-Кантору с помощью программы protdist пакета EMBOSS.
      При помощи программы protdist пакета EMBOSS по алгоритму JTT была получена матрица попарных эволюционных расстояний для 136 исследуемых последовательностей.
      Выходной файл программы.
      Далее при помощи Excel были построены гистограммы распределения попарных расстояний между митохондриальными белками и белками из альфа- и гаммапротеобактерий.
      Excel-файл.
      Гистограмма попарных эволюционных расстояний между митохондриальными белками и белками из альфа- и гаммапротеобактерий.


      Как видно из полученной гистограммы, медиана распределения попарных эволюционных расстояний между митохондриальными белками и белками из альфапротеобактерий лежит немного левее, чем медиана распределения эволюционных расстояний между митохондриальными белками и белками из гаммапротеобактерий.
      Кроме того, видно,что небольшое количество находок из альфапротеобактерий находится на минимальном расстоянии от последовательностей митохондриальных белков.
      Таким образом, среднее эволюционное расстояние между альфапротеобактериями и митохондриями меньше, чем между митохондриями и гаммапротеобактериями, следовательно, митохондрии ближе к альфапротеобактериям.
      Этот результат совпадает с результат совпадает с результатами, полученными в предыдущих упражнениях.

    5. Резюме.
      В ходе данной работы было произведено сравнение последовательностей митохондриальных белков L24 и последовательностей соответствующих белков из альфа- и гаммапротеобактерий разными способами. Результаты проведенных сравнений согласуются между собой.
      Анализ распределения нормированных весов последовательностей альфа- и гаммапротеобактерий,а также тест Вилкоксона, что найденные по профилю белки из альфапротобактерий имеют большее сходство к исследуемым митохондриальным белкам.
      Филогенетический анализ показал, что данные митохондриальные белки L24 имеют большее эволюционное сходство с cоответствующими белками альфапротеобактерий, а точнее с белками порядка Rickettsiales.
      На основе этого можно сделать вывод, что исследуемые 10 митохондриальных белков L24 эукариот вероятнее всего произошли от соотвествующих белков из группы альфапротеобактерий порядка Rickettsiales.

    ©Александра Литвинчук,2009