Запрос SRS.
(БД UniProt)
ПОЛЕ: ЗАПРОС: A|||DS RT02 description s2, taxonomy eukaryota
Найдено всего 8 записей.Последовательности из всех 8 записей были выравненны
при помощи программы muscle.результат
Доменную структуру найденных белков определим на примере последовательности
из митохондрии человека.Таким образом полагаем,что все белки в выборке имеют
нижепредставленный домен(2-292 a.o.):
#!/bin/bash for i in `cat list`; do | list- имя файла содржащего AC искомых белков grep -A x ${i} pfam.fasta >> pfam_filtered.ali | х-количество строк,которые занимает последовательность в фаста-файле Pfam done
Выравнивание по полным белковым последовательностям,хотя и не
противоречит выравниванию,cодержащему домен S2, не кажеться мне досаточно
убедительным, т.к содержит довольно не большое количество консервативных позиций
относительно все длины выравнивания.
Поэтому для получения лучшего результата,последовательности были выровненны "по
профилю"(т.е в соответствии с доменным выравниванием). Для этого :
1. В выравнивание были добавлены веса с помощью pwf из пакета PFTOOL
pfw -m out.ali > out.weighted.ali
2. mafft-linsi --seed pfam.ali --seed out.weighted.ali /dev/null > output
В результате этой процедуры в выравнивании появилось несколько дополнительных
консерванивных позиций.
После чего из полученного выравненивания были удалены все строки
принадлежащие "доменному выравниванию". И уже такой файл
использовалмя далее для построения профиля.
2 Построить профиль можно следующим образом:
pfmake -m out.weighted.ali /usr/share/pftools23/blosum45.cmp > myprofile.prf
Нормировать профиль относительно случайной базы можно следующим образом:
autoscale -m myprofile.prf > myprofile.scaled.prf
Профиль представляет собой файл содержащий информацию о частоте встречаемости
каждой аминокислоты в каждой позиции выравнивания.Далее при поиске по профилю
последовательности приписывается некий вес,определяющий насколько данная последовательность
профилю удовлетворяет.
При нормировании профиля он тестируется на случайно сгенерированной
базе данный, что позволяет делать его более избирательным.Это достигается
введением коэффициентов линейной зависимости R1 и R2,значение которых
завит от базы данных по которой проводилась нормировка.
Соответственно мы получаем некий порог при поиске по реальной БД
(score в поле CUT_OFF), и отличный от него порог при поиске по случайной БД.
И после нормировки нас будут интересовать последовательности с весом:порог по реально
БД *R1 + R2.
В данном случае, при сравнении простого и нормированного профилей внутренними
инструментами Total Сommander, обнаружено что у не нормированного профиля
SCORE=850, а у нормированного SCORE=1107.При этом коэффициенты
R1=0.3988; R2=0.00731211
3.Поиск по профилю.
Поиск по профилю в выборке последовательностей, где X значение порога (обязательно указывать в виде с десятичным значением, 10.0 ):
pfsearch -C X -f myprofile.scaled.prf Gammaproteobacteria.fasta > gamma.search
pfsearch -C X -f myprofile.scaled.prf Alphaproteobacteria.fasta > alpha.search
Файлы по которым проводиля поиск содержат протеомы и были нам предоставлены.
По каждому из файлов поск проводился с порогом 5.0 ,10.0 ,30.0 (Всего 6 раз)
Далее при помощи скипта выясняли,какие из находок содержат GO:0015935 (малая субъеди
ница рибосомы,соглассно записи по человеку),а также GO "клеточный компонент"
Результаты:
Gammaproteobacteria | |||
порог | Находки с GO:0015935 (малая субъединица рибосомы) | Находки с GO "клеточный компонент" | Всего находок с таким порогом |
5 | 171 | 208 | 215 |
10 | 171 | 171 | 171 |
30 | 0 | 0 | 0 |
Alphaproteobacteria | |||
порог | Находки с GO:0015935 (малая субъединица рибосомы) | Находки с GO "клеточный компонент" | Всего находок с таким порогом |
5 | 90 | 111 | 115 |
10 | 90 | 91 | 91 |
30 | 0 | 0 | 0 |
Обоснование выбора порога: Выбранный порог будет задавать меру схожести
белковых последоватьностей к профилю.Но некоторый последовательности могут быть
схожи с профилем "по счастливой случайности". Дабы избежать/минимизировать попадания в выборку
"лишних" последовательностей в выборку на них так же накладывается биологическое
условие в виде наличие определенного GO термина.
Я считаю оптимальным порогом 10,т.к при этом значении все попадающие в выборку
значения являются оправданными с биологической точки зрения.Хотя,конечно, в данном
случае существует риск недопредсказания последовательностей.Что в последствии
повлечет уменьшение выборки рассматриваемых последовательностей.Тогда как возможное
перепредсказание с более низким порогом повлечет "загрязнение " данных ,что
значительно усложнит дальнейщую работу.
3.
Распределение весов в каждой группе бактерий является нормальным.
При этом очевидно,что медиана распределения весов по альфа протеобактериям
будет находиться в районе 20.5, а для гамма протеобактерий 19.5.
При этом высота распределения не является значимым фактором, т.к. в случае гамма поиск проводился среди
89 937 последовательностей,а в альфа - 27 836.(Соответственно логично что находок
среди гамма также больше)
Что
свидельствует о большей близости белков из альфа протеобактерий к паттерну,
а следовательно к эукариотам.
В таком случае можно утвержать,что рибосомальные
белки альфа протеобактерий лучше удовлетворяют паттерну и,следоватьно, более
близки к белкам из эукариот.
Файл Еxel
4.
КРИТЕРИИ СДВИГА (ПОЛОЖЕНИЯ). Файл: Переменные: x1, x2 Вилкоксон=1,562E4, Z=-7,077, Значимость=0, степ.своб = 89,170 Гипотеза 1: <Есть различия между медианами выборок>Тест подтверждает вывод сделанный по гистограммам.Подтведрилось определенное визуально различие в медианах распределений.
Следовательно на данном этапе исследования правомерно предположение о том чтмитохондриальный белок S2 более близок к рибосомальным белкам (S2) из альфа протеобактерий.
Группа источников рибосом | Число последовательностей |
Альфапротеобактерии | 91 |
Гаммапротеобактерии | 170 |
Фирмикуты | 6 |
Митохондрии | 8 |
Дерево реализовано алгоритмом максимального правдоподобия.(пакет phylip) При этом чем ближе к корню,тем более достоверными являются данные. Считая корнем дерева Firmicutes видим расхождения на гамма бактерии и альфа + эукариоты. Таким образом, по данному филогенетическому дереву очевидно,что рибосомальный белок S2 ближе к своему гомологу из альфа бактерий,а не гамма. 5.3
Распределение попарных
эволюционных расстояний между митохондриальными белками и белками
из гаммапротеобактерий и альфапротеобактерий:
По модели Кимура
По матрице PAM
Исходя их данных гистограм видно,что распределения
в альфа и гамма бактериях практически не отличаются.
Это указывает на тот факт, что митохондриальные белки одинакова далеки
и от гамма и от альфа протеобактерий.Но учитывая
выше описанное расположение фирмикут,которые в общем-то тоже одинаково далеки
от обеих групп бактерий,считаю правомерным сделанный ранее вывод о большей близости
митохондриальных белков к альфапротеобактериям.
При решении нашей задачи мы использовали несколько различных
методов.При этом не один из не дает четкого ответа на поставленный вопрос,
поэтому для получения окончательного итога необходимо рассматривать
совокупность результатов,полученных на всех этапах.