Проект "Эволюция белков митохондриальных рибосом"

Поиск бактериальных гомологов белка S2 по нормированному профилю белков эукариотических митохондриальных рибосом

Общая характеристика обучающей выборки.

Запрос SRS.
(БД UniProt)

ПОЛЕ:   ЗАПРОС: 
A|||DS       RT02       
description  s2,   
taxonomy     eukaryota

Найдено всего 8 записей.Последовательности из всех 8 записей были выравненны при помощи программы muscle.результат
Доменную структуру найденных белков определим на примере последовательности из митохондрии человека.Таким образом полагаем,что все белки в выборке имеют нижепредставленный домен(2-292 a.o.):

Family: Ribosomal_S2

(PF00318)

Из БД сайта Pfam было извлечено выравнивание данного домена в найденных последовательностях. Надо отметить,что в меню Alignment мы получаем выравнивание из домена из всех последовательностей его содержащих в данной БД. Отобрать интересующий нас последовательности можно при помощи скрипта:

#!/bin/bash

for i in `cat list`; do                           | list- имя файла содржащего AC искомых белков

grep -A x ${i} pfam.fasta >> pfam_filtered.ali    | х-количество строк,которые занимает последовательность в фаста-файле Pfam
done

Из найденный 8 записей в выравнивании,сгенериворанном Pfam содержались только 5.

Выравнивание по полным белковым последовательностям,хотя и не противоречит выравниванию,cодержащему домен S2, не кажеться мне досаточно убедительным, т.к содержит довольно не большое количество консервативных позиций относительно все длины выравнивания.
Поэтому для получения лучшего результата,последовательности были выровненны "по профилю"(т.е в соответствии с доменным выравниванием). Для этого :

1. В выравнивание были добавлены веса с помощью pwf из пакета PFTOOL
pfw -m out.ali > out.weighted.ali
2. mafft-linsi --seed pfam.ali --seed out.weighted.ali /dev/null > output
В результате этой процедуры в выравнивании появилось несколько дополнительных консерванивных позиций.
После чего из полученного выравненивания были удалены все строки принадлежащие "доменному выравниванию". И уже такой файл использовалмя далее для построения профиля.

2 Построить профиль можно следующим образом:
pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf Нормировать профиль относительно случайной базы можно следующим образом: autoscale -m myprofile.prf > myprofile.scaled.prf
Профиль представляет собой файл содержащий информацию о частоте встречаемости каждой аминокислоты в каждой позиции выравнивания.Далее при поиске по профилю последовательности приписывается некий вес,определяющий насколько данная последовательность профилю удовлетворяет.
При нормировании профиля он тестируется на случайно сгенерированной базе данный, что позволяет делать его более избирательным.Это достигается введением коэффициентов линейной зависимости R1 и R2,значение которых завит от базы данных по которой проводилась нормировка.
Соответственно мы получаем некий порог при поиске по реальной БД (score в поле CUT_OFF), и отличный от него порог при поиске по случайной БД. И после нормировки нас будут интересовать последовательности с весом:порог по реально БД *R1 + R2.
В данном случае, при сравнении простого и нормированного профилей внутренними инструментами Total Сommander, обнаружено что у не нормированного профиля SCORE=850, а у нормированного SCORE=1107.При этом коэффициенты R1=0.3988; R2=0.00731211

3.Поиск по профилю. Поиск по профилю в выборке последовательностей, где X значение порога (обязательно указывать в виде с десятичным значением, 10.0 ):
pfsearch -C X -f myprofile.scaled.prf Gammaproteobacteria.fasta > gamma.search
pfsearch -C X -f myprofile.scaled.prf Alphaproteobacteria.fasta > alpha.search
Файлы по которым проводиля поиск содержат протеомы и были нам предоставлены. По каждому из файлов поск проводился с порогом 5.0 ,10.0 ,30.0 (Всего 6 раз) Далее при помощи скипта выясняли,какие из находок содержат GO:0015935 (малая субъеди ница рибосомы,соглассно записи по человеку),а также GO "клеточный компонент"

Результаты:

Gammaproteobacteria

порог Находки с GO:0015935 (малая субъединица рибосомы) Находки с GO "клеточный компонент" Всего находок с таким порогом

5 171 208 215

10 171 171 171
30 0 0 0

Alphaproteobacteria

порог Находки с GO:0015935 (малая субъединица рибосомы) Находки с GO "клеточный компонент" Всего находок с таким порогом
5 90 111 115

10 90 91 91

30 0 0 0

Обоснование выбора порога: Выбранный порог будет задавать меру схожести белковых последоватьностей к профилю.Но некоторый последовательности могут быть схожи с профилем "по счастливой случайности". Дабы избежать/минимизировать попадания в выборку "лишних" последовательностей в выборку на них так же накладывается биологическое условие в виде наличие определенного GO термина.
Я считаю оптимальным порогом 10,т.к при этом значении все попадающие в выборку значения являются оправданными с биологической точки зрения.Хотя,конечно, в данном случае существует риск недопредсказания последовательностей.Что в последствии повлечет уменьшение выборки рассматриваемых последовательностей.Тогда как возможное перепредсказание с более низким порогом повлечет "загрязнение " данных ,что значительно усложнит дальнейщую работу.
3.

Распределение нормированных весов находок в протеомах 2-х групп бактерий.

Результат поиска с порогом 10 в протеоме альфа бактерий.
Результат поиска с порогом 10 в протеоме гамма бактерий.

Распределение весов в каждой группе бактерий является нормальным. При этом очевидно,что медиана распределения весов по альфа протеобактериям будет находиться в районе 20.5, а для гамма протеобактерий 19.5. При этом высота распределения не является значимым фактором, т.к. в случае гамма поиск проводился среди 89 937 последовательностей,а в альфа - 27 836.(Соответственно логично что находок среди гамма также больше) Что свидельствует о большей близости белков из альфа протеобактерий к паттерну, а следовательно к эукариотам. В таком случае можно утвержать,что рибосомальные белки альфа протеобактерий лучше удовлетворяют паттерну и,следоватьно, более близки к белкам из эукариот.
Файл Еxel

Тест Вилькоксона

Тест проведен при помощи программы STADIA:

                                     
КРИТЕРИИ СДВИГА (ПОЛОЖЕНИЯ).  Файл:                                
                                                                   
                            Переменные: x1, x2                     
Вилкоксон=1,562E4, Z=-7,077, Значимость=0, степ.своб = 89,170      
   Гипотеза 1: <Есть различия между медианами выборок>

Тест подтверждает вывод сделанный по гистограммам.Подтведрилось определенное визуально различие в медианах распределений.

Следовательно на данном этапе исследования правомерно предположение о том чтмитохондриальный белок S2 более близок к рибосомальным белкам (S2) из альфа протеобактерий.

5.Филогенетический анализ.

5.1.Описание выборки в виде таблицы:

Группа источников рибосом	Число последовательностей
Альфапротеобактерии	91
Гаммапротеобактерии	170
Фирмикуты	6
Митохондрии	8

Матрица попарного совпадения последовательностей, полученая на основе множественного выравнивания с помощью программы GeneDoc

5.2Филогенетическoe дерево

Дерево,содержащие 8 исходных эукариотических последовательностей, последовательности из гамма и альфа протеобактерий(выйденных поиском по профилю с порогом 10),а также последовательности данного белка их Firmicutes - в качестве out-группы для определения местоположения корня.

Дерево реализовано алгоритмом максимального правдоподобия.(пакет phylip) При этом чем ближе к корню,тем более достоверными являются данные. Считая корнем дерева Firmicutes видим расхождения на гамма бактерии и альфа + эукариоты. Таким образом, по данному филогенетическому дереву очевидно,что рибосомальный белок S2 ближе к своему гомологу из альфа бактерий,а не гамма. 5.3

Эволюционные расстояния

Файл с попарными эволюционными расстояниями по Кимуре
Данный файл содержит численный значения расстояний от одной последовательности до другой на дареве.Соответственно матрича является квадратной с нолями по диагонали. Соответсвенно таблица по моим данным должна быть 275*275, но т.к программа Exel поддерживает только 256 столбиков, часть таблицы была утерена. Но это не повлияло на конечный результак т.к таблица попарных расстояний является симметричной относительно диагонали.

Распределение попарных эволюционных расстояний между митохондриальными белками и белками из гаммапротеобактерий и альфапротеобактерий:
По модели Кимура

По матрице PAM

Исходя их данных гистограм видно,что распределения в альфа и гамма бактериях практически не отличаются. Это указывает на тот факт, что митохондриальные белки одинакова далеки и от гамма и от альфа протеобактерий.Но учитывая выше описанное расположение фирмикут,которые в общем-то тоже одинаково далеки от обеих групп бактерий,считаю правомерным сделанный ранее вывод о большей близости митохондриальных белков к альфапротеобактериям.
При решении нашей задачи мы использовали несколько различных методов.При этом не один из не дает четкого ответа на поставленный вопрос, поэтому для получения окончательного итога необходимо рассматривать совокупность результатов,полученных на всех этапах.

Gammaproteobacteria
порог	Находки с GO:0015935 (малая субъединица рибосомы)	Находки с GO "клеточный компонент"	Всего находок с таким порогом
5	171	208	215
10	171	171	171
30	0	0	0
Alphaproteobacteria
порог	Находки с GO:0015935 (малая субъединица рибосомы)	Находки с GO "клеточный компонент"	Всего находок с таким порогом
5	90	111	115
10	90	91	91
30	0	0	0