Для составления выборки белков семейства глобинов из заданных таксонов
использовалась поисковая система SRS. Запрос в поле Taxonomy содержал названия таксонов
(Mus musculus и Ursidae), записанных через знак "|" (или), поле Links: DBxref
содержало идентификатор Pfam данного семейства (PF00042). Всего по запросу было найдено 10 белков.
Процесс фильтрования заключался в том, чтобы фрагменты белков (менее 90 а.к.) не попали
в выборку. Для выборки выбирались белки из подвида, у которого было найдено больше белков.
В конечном счёте в выборке осталось 9 белков. Всего
Сначала было построено множественное выравнивание белков с помощью программы emma (параметры
были выбраны по умолчанию).
После этого программой eprotdist с параметрами по умолчанию по множественному выравниванию была создана
квадратная матрица попарных расстояний между белковыми последовательностями.
Для визуализации дерева по скобочной формуле была использована программа GeneMaster.
Некоторые из последовательностей располагались очень близко друг от друга; поэтому длины ветвей (масштаб изображения, а не реальные расстояния между белками) были увеличены в 3 раза по сравнению с длинами, определяемыми по умолчанию,
чтобы получить возможность расположить названия белков без наползания друг на друга. При этом изображение
получилось довольно большим, поэтому ниже приведён уменьшенный его вариант; нажав на этот
рисунок, можно увидеть дерево в исходном размере (формат GIF, рекомендуется открыть в новом окне).
Названия последовательностей из внешней группы выделены жирным шрифтом,
соответствующие им ветви наиболее толстые в дереве.
Разные группы ортологов покрашены в , , цвета.
Разные группы паралогов покрашены в ,
, цвета.
Ортологи последовательности, возникшие из одного общего предшественника в процессе видообразования и, как правило, выполняющие одну и ту же функцию, поэтому их следует искать среди белков из
разных организмов, расположенных близко друг от друга по дереву (в одном кластере).
HBA_URSTH и HBA_AILME
HBB_URSMA и HBB_AILME
HBA_URSMA и HBA_HUMAN
Паралоги последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме и, как правило, выполняющие разные функции. Часто таким организмом
бывает предшественник целой группы организмов (таксона), поэтому паралоги нужно искать среди белков одного организма,
но расположенных в разных, иногда достаточно удалённых друг от друга кластерах.
HBAZ_HUMAN и HBB_HUMAN
HBAT_HUMAN и HBD_HUMAN
CYGB_HUMAN и HBG1_HUMAN
Построение таксономического дерева
С помощью ресурсов сайта NCBI было получено таксономическое дерево организмов, белки которых
были включены в выборку. Оно представлено ниже в графической форме,которая также была создана с использованием
программы GeneMaster. Расстояния по дереву между двумя любыми узлами одинаковы и не несут никакой информации.
Все узлы, кроме одного (который является корнем дерева), обозначают какой-либо таксон, а ветви, отходящие от такого
узла по направлению к листьям, ведут либо в узел, обозначающий более мелкий таксон, либо в листья, то есть названия организмов.