Создание обучающей выборки, построение выравнивания и профиля

    1. С помощью SRS из UniProt были получены последовательности заданного рибосомального белка S13 из митохондрий разных эукариот.
      Для этого в SRS был введён следующий запрос:
      Description - ribosomal protein s13
      Taxonomy - eukaryota
      Organelle - mitochondrion
      В результате было найдено 130 последовательностей. Однако человеческого белка среди них не найдено.
      С помощью PFam была установлена доменная структура белков. Оказалось, что у всех найденных белков присутствует одинаковый домен Ribosomal_S13:


      Из PFam было получено выравнивание всех доменов данного типа - файл pfam.fasta. Из полученного выравнивания было извлечено выравнивание доменов во всех найденных в п. 1 белках. Результат сохранён в файле pfam_filtered.ali. В GenеDoc были удалены колонки, состоящие только из гэпов.

    2. С помощью программы muscle было построено выравнивание полных последовательностей найденных белков (п. 1):
      muscle -in in.fasta -out out.ali.
      Веса последовательностей выборки были рассчитаны c помощью программы pfm пакета PFTOOLS :
      pfw -m out.ali > out.weighted.ali.
      В результате было обнаружено, что выравнивание, построенное muscle является хорошим, так как в нём отображены все консервативные позиции.

    3. Построение простого и нормированного профилей

      Простой профиль был построен посредством ввода команды:
      pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf
      После этого профиль был отнормирован относительно случайной базы следующим образом:
      autoscale -m myprofile.prf > myprofile.scaled.prf
      В результате сравнения простого и нормированного профилей было установлено, что профили различаются значением коэффициента функции нормирования
      (R1 и R2), а также порогом для поиска по умолчанию (SCORE).
    4. По полученному профилю был осуществлён поиск среди альфапротеобактерий и гаммапротеобактерий с различными значениями порога с целью определения оптимального порогового значения.

      Результаты поиска по двум группам бактерий с разными значениями порога:

        Гаммапротеобактении Альфапротеобактерии
      порог всего Онтология "малая субчастица рибосомы" GO "клеточный компонент" всего Онтология "малая субчастица рибосомы" GO "клеточный компонент"
      5.0 291 13 269 95 80 87
      6.0 130 130 130 72 72 72
      7.0 130 130 130 72 72 72
      8.0 130 130 130 72 72 72
      10.0 130 130 130 72 72 72
      20.0 64 64 64 70 70 70
      30.0 0 0 0 0 0 0

      Оценивая данные таблицы можно сделать вывод, что при пороге 5 мы имеем слишком много последовательностей, не имеющих аннотации в GO. Следовательно, далее следует искать порог в промежутке от 5 до 10. В результате было обнаружено, что при пороге в 6, 7, 8 и 10 мы получаем одинаковое число последовательностей. Выбираем порог 6.

      Распределение нормированных весов находок в протеомах 2-х групп бактерий




      В результате сравнения распределения нормированных весов находок видно, что гаммапротеобактерий примирно в 2 раза больше, нежели альфапротеобактерий.
      Распределение альфапротеобактерий напоминает нормальное, в то время как для гаммапротеобактерий мы подобного не наблюдаем. Также по гистограмме можно приблизительно определить медиану распределения альфапротеобактерий - в районе 23. Для гаммабактерий мы с точностью определить медиану не можем, однако можно предположить, что она находится левее медианы альфабактерий. Для того, чтобы делать обоснованные заявления, нужно провести тест Уилкоксона, который даст нам необходимую информацию.

      Тест Уилкоксона

      При помощи программы STADIA был проведён тест Уилкоксона.
      Полученный результат:
      Вилкоксон=8977, Z=10,6, Значимость=0, степ.своб = 130,72
      Гипотеза 1: <Есть различия между медианами выборок>
      Для альфапротеобактерий:
      Среднее - 21,95
      Медиана - 22,13
      Для гаммапротеобактерий:
      Среднее - 19,83
      Медиана - 19,98

      Тот факт, что нормированные веса для альфабактерий больше, нежели для гамма-, позволяет сделать вывод о том, что исследуемый белок S13 всё же ближе к альфапротеобактериям.

      Филогенетический анализ рибосомальных белков S13 из эукариотических миохондрий и 3-х групп бактерий

      Была создана внешняя группа последовательностей рибосомальных белков из Firmicutes, имеющих название S13. Были получены 7 последовательностей из разных родов. Созданы файлы с найденными в упр.8 последовательностями из альфа- и гаммапротеобактерий.
      Было построено объединенное выравнивание митохондриальных белков и белков из рибосом альфа-, гаммапротеобактерий и фирмикут.
      Описание выборки в виде таблицы:
      Группа источников рибосомЧисло последовательностей
      Альфапротеобактерии72
      Гаммапротеобактерии130
      Фирмикуты7
      Митохондрии130

      Методом максимального правдоподобия было построено филогенетическое дерево:


      Для лучшей визуализации было использовано окрашивание по группам: голубой - альфапротеобактерии, фиолеторый - гаммапротеобактерии, жёлтый - фирмикуты.
      В данном дереве фирмикуты представляют корень, от которого отходят 2 ветви: альфа- и гаммапротеобактерии. Далее можно наблюдать, что именно от альфапротеобактерий отделяется группа эукариотических митохондриальных белков. То есть эволюционно митохондриальные белки ближе альфапротеобактериям.

      Попарные эволюционные расстояния

      Для проверки результатов, полученных ранее, с помощью программы phylip protdist пакета EMBOSS были найдены попарные эволюционные расстояния
      по Джуксу-Кантору. Полученная матрица была импортирована в Excel, где на её основе была построена гистограмма распределения попарных расстояний между митохондриальными белками и белками из альфа- и гаммапротеобактерий:



      Из приведённой выше информации следует, что однозначного вывода о происхождении митохондриальных белков от альфа- или гаммапротеобактерий
      мы сделать не можем, так как расстояния от бактерий до митохондриальных белков распределены примерно одинаково.

      Резюме

      В целом, анализируя все полученные ранее результаты можно сделать вывод, что исследуемый рибосомальный белок S13 ближе к альфа-, нежели к гаммапротеобактериям. В пользу этого предположения говорят данные описательной статистики, а также полученное филогенетическое дерево.

      Четвёртый семестр


      ©Черниогло Елена