Возврат на главную страницу четвертого семестра

Исследование филогенетического дерева семейства MIP

(из таксонов Bacillales, Actinobacteridae и Euryarchaeota)

Семейство MIP (Major Intrinsic Protein, идентификатор Pfam PF00230) объединяет белки, которые в основном демонстрируют два разных канальных свойства:

С помощью SRS найдем в UniProt последовательности из таксонов бактерий (таксоны Bacillales, Actinobacteridae) и отфильтруем найденные, выбирая из многих штаммов одного вида тот единственный, в котором содержится больше нужных нам последовательностей (длиной не менее 200 аминокислотных остатков). Добавим к этой выборке белки архей, относящиеся к семейству MIP и найдем в SRS последовательности трех белков внешней группы. В итоге мы получаем три файла:

По последовательностям выборки и внешней группы программой ClustalX построим филогенетическое дерево. С помощью программы GeneMaster можно визуализировать построенное дерево и сделать его читабельным. Изображение филогенетического дерева было сохранено в виде картинки. На ней ветви, выделенные синим, относятся к внешней группе, а ветви, выделенные красным, соответствуют последовательностям архей.

Хотелось бы отметить, что ни внешняя группа, ни белки архей не составляют единых клад. Между ними вклиниваются бактериальные белки. Данный пример показывает, что филогенетическое и таксономическое деревья не обязаны совпадать.

Чтобы провести анализ ортологов и паралогов, нужно построить также таксономическое дерево. Для этого список организмов, полученный ранее, пришлось немного подредактировать – то есть стереть те видовые и штаммовые называния, которые не смогла найти программа для построения таксономического дерева с сайта NCBI. В результате файл с названиями организмов принял другой вид.

Таксономическое дерева было сохранено в текстовом формате и в формате PHYLIP. Чтобы получить красивое изображение дерева с помощью GeneMaster, в файле формата PHYLIP были удалены все одиночные кавычки и все пробелы между названиями вида и роды заменены на знак подчеркивания. Отредактированный файл можно посмотреть здесь. Изображение таксономического дерева было сохранено в виде картинки.

Поиск ортологов и парологов

Филогенетическое дерево было специальным образом покрашено в соответствии с имеющейся информацией о fasta-последовательностях выборки (новое изображение можно посмотреть здесь). На это рисунке в рамочки разных цветов заключены листья дерева в соответствии с конкретной их функцией как канальных белков. На данном дереве, как оказалось, преобладают белки-транспортеры глицерола (отмечены сиреневым) и белки-аквапорины, т.е. транспортеры воды (отмечены голубым). Пунктирной линией выделены те листья, о свойствах соответствующих которым белков не сказано было, к какому именно классу они относятся. Окраской и цифрами выделены те белки, которые приводятся ниже в качестве примеров ортологов и паралогов.

Два этих подсемейства семейства MIP образуют две изолированные клады. Если судить о той части дерева, где отходят последовательности внешней группы и группы архебактерий, как о месте возможного корня, то становится ясно, что эти две группы белков разошлись еще в самом начале эволюции последовательности.

Что касается паралогов, то я думаю, можно считать паралогами любую пару последовательностей из одного организма, в которой одна из последовательностей принадлежит одной кладе, а вторая – другой. Например, это такие пары последовательностей (отмечены оранжевым):

Чтобы найти ортологов, нужно использовать таксономическое дерево. Будем считать последовательности ортологичными, если они имеют общее происхождение исходя из филогенетического дерева, взяты из разных организмов и помимо этого организмы образовались в процессе видообразования из одного вида. Сличение двух деревьев позволяет легко найти много таких пар последовательностей. Например, такие (отмечены фиолетовым на филогенетическом дереве):


© Dibrova Dasha aka UdavDasha, 2006