Множественные выравнивания

1

Ознакомление с программой Muscle
Для построения множественного выравнивания вирусных дельта-антигенов сначала получим файл с последовательностями этих белков в fasta-формате. Для этого в системе поиска SRS введем в поле Taxonomy слово Deltavirus, а в поле Description слово delta, указав предварительно, что будем искть по Swiss-Prot. Полученный список последовательностей (всего их 34) сохраним в fasta-формате: delta.fasta.
Невыровненные последовательности в GeneDoc выглядят так (показаны частично, полная картинка здесь):

Посмотреть эти последовательности в GeneDoc можно здесь.
Мы можем определить вероятное расположение пробелов в выравнивании на глаз. Например, на приведенном выше рисунке красным отмечены повторяющиеся во всех последовательностях группы REE (в некоторых последовательностях последний а.о. варьирует, но это не имеет значения). В большинстве последовательностей эти группы располагаются одинаково, но в некоторых они сдвинуты на один а.о. вправо, следовательно, в остальных последовательностях при выравнивании перед этой группой появится пробел.
Теперь выровняем последовательности при помощи программы muscle, выполнив команду
muscle -in delta.fasta -out delta_aligned.fasta
Мы получили выравнивание в fasta-формате, оно находится в файле delta_aligned.fasta. Мы можем импортировать его в GeneDoc (последовательности показаны частично, полная картинка здесь):

Посмотреть выравнивание в GeneDoc можно здесь.
Мы видим, что совпадений стало гораздо больше, причем для этого не понадобилось вставлять много гэпов: всего один гэп как раз в том месте, которое мы обнаружили в еще невыровненных последовательностях. Кроме того, после выравнивания изменился порядок последовательностей.


2

Выравнивание набора гомологов своего белка
Найдем в BLAST несколько последовательностей, схожих с последовательностью исследуемого белка OTC1_ECOLI (AC P04391), причем идентичность последовательностей должна быть меньше 90%:
Идентификатор E-value Идентичность
(% совпавших а.о.)
Сходство
(% положительных замен)
OTC_SALTI 3e-180 89% 95%
OTC_YERP3 6e-164 79% 89%
OTC_VIBHB 2e-136 68% 84%
OTC_PSEPK 3e-47 35% 51%
OTCC_STRRT 2e-95 53% 70%
OTC_STAES 3e-112 57% 74%
При помощи muscle построим выравнивание этих последовательностей и исследуемого белка. Файлы с этим выравниванием:
fasta-формат
формат .msf

Судя по получившемуся выравниванию, белки достаточно схожи, что позволяет предположить их гомологию. Есть довольно много участков с консервативными позициями (выделены на рисунке фиолетовым):
Позиции выравнивания Позиции OTC1_ECOLI
8-257-24
44-6443-63
83-11082-109
124-142123-141
159-175158-174
230-240229-239
270-278269-277
315-333314-332

В принципе, выравнивание полностью биологически обоснованно. Заметно, что 4 последние белка (OTC_VIBHB, OTC_YERP3, OTC1_ECOLI и OTC_SALTI) имеют больше консервативных позиций, чем белки OTC_PSEPK и OTCC_STRRT. Но и таксономически бактерии, синтезирующие эти белки, далеки друг от друга. OTC_YERP3, OTC1_ECOLI и OTC_SALTI - это белки бактерий из одного семейства (Enterobacteriaceae), в то время как OTC_PSEPK синтезирует бактерия из семейства Pseudomonadaceae, а бактерия, несущая белок OTCC_STRRT, относится вообще к другому типу (Firmicutes, а не Proteobacteria, как было у предыдущих белков). Тем не менее, белок OTC_VIBHB довольно схож с OTC_YERP3, OTC1_ECOLI и OTC_SALTI, хотя он, как и OTC_PSEPK, принадлежит бактерии также из другого семейства (Vibrionaceae).
Большое количество гэпов в первой строке выравнивания (последовательность OTC_PSEPK) вполне может быть объяснено тем, что этот белок произошел путем множества делеций либо вставок из общего предка всех рассмотренных белков. То же можно сказать и о второй последовательности (OTCC_STRRT), которая в данном выравнивании содержит меньшее число гэпов.
Похоже, не несут биологического смысла позиции выравнивания с 334 по 341 (последние, туда входят лишь 2 а.о. из OTC1_ECOLI: 333 и 334) для первых трех последовательностей. У них длины "хвостов" и их состав существенно различаются. Возможно, эти концевые участки не несут никакой функциональной нагрузки. Тем не менее, у белков OTC_YERP3, OTC1_ECOLI и OTC_SALTI даже здесь наблюдается сходство, что также подтверждает их гомологичность.


3*

Другие программы множественного выравнивания
В программе mafft было создано еще одно выравнивание этих же последовательностей (файл в fasta-формате: myproteins_mafft.fasta, файл .msf: myproteins_mafft.msf. Оно практически не отличается от выравнивания из muscle (задание 2), кроме начального и концевого участков, которые показаны на рисунке:

Здесь как раз выровнены инициирующие метионины, кроме того, в конце участок последовательности OTC_PSEPK (а.о. 296-306) сдвинут вправо на единицу. Но это фактически ничего не меняет.

Выравнивание из edialign также отличается от двух остальных только началом и концом. В начале программа так же, как и mafft, выровняла метионины, но по-другому расположила аминокислотные остатки между этими метионинами и первой консервативной позицией (8-я, соответствует 7-й позиции OTC1_ECOLI). Эти изменения ничего не значат, так как биологического смысла этот участок как не нес, так и не несет. Конечный участок, также не имеющий биологического смысла для OTC_VIBHB, OTC_PSEPK и OTCC_STRRT, здесь такой же, как и в выравнивании, полученном muscle.
Начало и конец выравнивания из edialign показаны на рисунке ниже.

Выравнивание в fasta-формате: myproteins_edialign.fasta, в файле .msf: myproteins_edialign.msf.


4*

Знакомство с некоторыми программами обработки множественных выравниваний

к проектам

на главную