С помощью SRS были получены последовательности 9 белков L27 митохондриальных рибосом. Запрос в SRS проводился по полю "Description" и имел вид: (28S | 39S) & ribosomal & protein & L27.
Для белка RM27_HUMAN была определена доменная структура с помощью Pfam. Оказалось, что белок содержит единственный домен Ribosomal_L27 (PF01016), как и 7 других белков из этих 9. Однако один из белков (Q8IXM3, RM41_HUMAN) содержит совсем другой домен, а именно Pfam MRP-L27 (PF09809). В описании этого белка указано, что он является белком L41. Вероятно в выборку он попал из-за этого странного названия домена, поэтому его следует исключить.
Из 8 оставшихся белков 4 содержатся в множественном выравнивании для домена Ribosomal_L27, которое выдает Pfam, а еще 4 - нет. Последовательности первых четырех были извлечены из него, колонки только с гэпами - удалены.
Все 8 последовательностей были выровнены muscle, а к последовательностям в выравнивании програмой pfw были добавлены веса. Оказалось, что построенное выравнивание полностью соответствует выравниванию Pfam, поэтому оно и использовалось для построения профиля. Файлы с выравниваниями в формате Clustal, построенными Muscle и выданными Pfam приложены.
Профиль был построен программой pfmake и нормирован с помощью autoscale. Созданные простой и нормированный профили отличаются только значениями полей "MA /NORMALIZATION" (где различны значения коэффициентов R1 и R2 линейной функции, которая служит для нормировки профиля) и "MA /CUT_OFF" (где различны величины SCORE - пороговых значений для поиска)
По построенному профилю программой pfsearch осуществлялся поиск среди всех белков бактерий из таксонов Alphaproteobacteria и Gammaproteobacteria с тремя разными значениями порога. Для выбора оптимального порога было сделано следующее: белки-хиты профиля проверялись на принадлежность термину GO:0005840 - "ribosome", а также на наличие какого-либо описания GO типа "Клеточный компонент". Результаты приведены в таблице ниже. Скрипт, с помощью которого осуществлялась проверка, представлен здесь.
Таксон | Порог | Всего хитов | GO:0005840 - "ribosome" | Аннотаций типа "Клеточный компонент" |
Alphaproteobacteria | 5.0 | 160 | 75 | 137 |
Alphaproteobacteria | 10.0 | 74 | 74 | 74 |
Alphaproteobacteria | 30.0 | 1 | 1 | 1 |
Gammaproteobacteria | 5.0 | 307 | 143 | 270 |
Gammaproteobacteria | 10.0 | 140 | 140 | 140 |
Gammaproteobacteria | 30.0 | 0 | 0 | 0 |
Исходя из данных таблицы, оптимальным порогом был выбран 10.0, т.к. почти все ассоциированные с рибосомами белки обнаруживались в обоих таксонах с ним и не находились "посторонние" белки. С таким порогом проводились дальнейшие расчеты.
Для выбранного порога веса находок в таксонах Alphaproteobacteria и Gammaproteobacteria были сохранены в отдельном файле и были построены гистограммы их распределения. Получившийся файл представлен здесь. Исходные данные находятся на листе "data", а гистограмма - на листе "distribution". Сравнение гистограмм приведено также на рисунке ниже.
Визуально можно заметить, что распределение значений для Альфа-протеобактерий смещено в сторону больших значений. Это наблюдение подтверждается тестом на равенство медиан независимых выборок - критерием ранговых сумм Вилкоксона (или тестом Мана-Уитни). Были расчитаны следующие величины:
Если считать распределение U нормальным, вероятность такого отклонения практически равна 0 (p < 0.01), а значит гипотезу о равенстве медиан выборок следует отвергнуть.
Получается, что белки из Альфа-протеобактерий по сравнению с белками из Гамма-протеобактерий значимо ближе к белкам, по которым строился исходный профиль - митохондриальным рибосомальным белкам L27.
Для создания out-группы было выбрано 7 белков из таксона Firmicutes, имеющих в описании сочетание "L27". Таким образом, всего в анализе использовались 229 последовательностей:
Все они были выровнены с помощью muscle, результат был преобразован таким образом, чтобы удовлетворять требованиям входного формата программы promlk пакета PHYLIP. В результате было получено дерево по методу максимального правдоподобия (maximum likelihood). Оно было визуализировано с помощью сервиса Trex-online и приведено на рисунке ниже. Клады отмечены по таксономической принадлежности белков. Исходя из дерева можно сказать, что последовательности митохондриальных белков L27 ближе к Альфа-протеобактериям, чем к Гамма-протеобактериям.
Было проведено сравнение попарных расстояний по Джуксу-Кантору, полученных с помощью protdist, между митохондриальными белками и белками, соответственно, Альфа-протеобактерий и Гамма-протеобактерий. Полученные гистограммы приведены на листе "comparison" здесь и ниже на рисунке. Видно, что в таксоне Alphaproteobacteria пик на гистограмме чуть смещен в сторону меньших значений, что согласуется с ранее сделанным выводом: белки Альфа-протеобактерий ближе к митохондриальным, чем белки Гамма-протеобактерий.