Множественное выравнивание последовательностей



Главная

Назад

Ознакомление с программой Muscle

Задача заключается в том, чтобы Получить выравнивание вирусных белков, называемых "дельта-антигенами", посредством программы Muscle и посмотреть на него в GeneDoc. Для этого сделаем следующее:

- создадим запрос к банку Swiss-Prot, написав в соответствующих полях род "Deltavirus" и слово "delta", учавствующее в описании.

Получили файл с 34 последовательностями delta.fasta

Импортировали в GeneDoc.


Файл в формате msf

Затем выравниваем полученные последовательности с помощью Muscle,
введя "muscle -in delta.fasta -out delta_aligned.fasta" на kodomo-count, получим файл delta_aligned.fasta с этими же последовательностями, но уже выравненными.


Файл в формате msf

"Впечатления"

Белки явно гомологичны, так как даже без выравнивания можно найти позиции с консервативными остатками у каждого белка. Множественное выравнивание показало, что предположение верно: с 93 по 184 столбец мы наблюдаем участок с повышенной долей консервативных остатков.
На мой взгляд, здесь нет участков, не имеющих биологического смысла (не учитываем "хвосты", т.к. длина белков разная).
Стоит отметить, что если посмотреть на "хвосты" выравнивания, становится понятен ход алгоритма выравнивания muscle: поочередное выравнивание каждых двух последовательностей.

Выравнивание набора гомологов белка PSTS_ECOLI

Получаем несколько гомологов белка PSTS_ECOLI, с помощью BLASTP, ограничивая поиск E-value=0.001 и таксоном Bacteria.
Выбираем 5 гомологов с процентами идентичности не меньше 32%.
Получим последовательности этих белков:

- создаем список белков

- вводим seqret @myproteins.list myproteins.fasta

Последовательности выравниваемых белков в fasta-формате.
Выравниваем с помощью Muscle.
Выравнивание в GeneDoc выглядит так:


Файл в формате msf
Разберем структуру выравнивания подробнее. Можно заметить, что позиции 183-201 в белке PSTS_ECOLI являются участками с повышенной долей консервативных остатков.
По столбцам выравнивания это соответствует номерам 185-203.
Участки с номерами Столбцов 1-50, 377-387 скорее всего не имеют биологического смысла.
На мой взгляд, выравнивание нельзя назвать очень хорошим. Причиной этого скорее всего является гомолог с процентом идентичности 32, в то время как процентом идентичности остальных выбранных белков не меньше 50.
Поэтому посмотрим еще на множественное выравнивание без этого белка.


Файл в формате msf
Первое, что можно отметить: явно увеличилось количество участков с повышенной долей консервативных остатков.
Позиции 57-66, 160-168, 216-227 в белке PSTS_ECOLI являются участками с повышенной долей консервативных остатков.
По столбцам выравнивания это соответствует номерам 82-91, 185-193, 241-252.
Но участки, где выравнивание не достоверно остались почти те же: 1-55, 361-376 столбцы.

Другие программы множественного выравнивания

MAFFT

Выравниванием эти же последовательности с помощью mafft


Файл в формате msf

Файл в формате fasta

Консервативные остатки в выравниваниях, полученных с помощью mafft и muscle идентичные, кроме одного в начале выравнивания, но это связано с тем, что эти две программы по-разному выравняли те участки, которые не несут биологического смысла, а, следовательно, не влияют на общее выравнивание.

EDIALIGN

Выравнивание последовательностей с помощью edialign


Файл в формате msf

Файл в формате fasta

Если сравнивать это выравнивание с выполненными с помощью mafft и muscle, то есть заметные отличия, хотя в целом все консервативные остатки прежние.
Различия выделены цветом.
Нужно сказать, что в данном случае трудно определить, какое множественное выравнивание лучше, так в одном случае edialign не находит полуконсервативные остатки на одном участке, но находит их на другом, а также в позоциях выравнивания 223-225 убрал гэпы, но добавил их в 258-260.

Знакомство с некоторыми программами обработки множественных выравниваний

CONSAMBIG

Эта программа составляет новую последовательность по множественному выравниванию, используя так называемые "ambiguity codes", показывая консервативные остатки большими буквами, а если есть гэп, то маленькими. При этом j, o, u значит, что аминокислотного кода в этой позиции нет, а Х - любая аминокислота, интересно, что Z обозначает одновременно и глутамин и глутаминовую кислоту, также как и B - аспарагин и аспарагиновую кислоту.
Больше узнать о "ambiguity codes" можно по этим ссылкам: http://www.virology.wisc.edu/acp/CommonRes/SingleLetterCode.html
http://slicetools.sourceforge.net/libSlice/ambiguity.html
>EMBOSS_001
MXxxxXXXXXXXXxXXXXXxxxxxxxxxxsxxxxxxxxxxtxxxxxxXXXXXJXXXGXXX
XXPXXXXWXXXXXXXXXXvXXXXQXXGSXXGXXQXXAXTXXXGXXDXXXXXXXXXXXkXL
XXXXXXXXXXXXXXNJXXXXXgXLXLXGXXLXXXXXGXIXXWBDXXJXXXNXXXXLPXXX
XXXXXRXDGSGXXFXXXXYLXKXXXXgWXXXXGXXXXVXXXXvpgXXGXXGXXGXXXXXX
XXXXXXXYXXXXXldqAXQXXXXXXXXXXXXGXXXXPXXZXXXXAAXXXXXxxXXXXXXX
XXBXXXXXXXPXXXXXXXJXXXXXXXXXXXXXXXXFXXWXXXXGXXXXflXXXXXXXJPX
XXXXXXXXXXXXXXXxxxgkxxxagz

DISTMAT

Программа вычисляет эволюционный путь между каждой парой последовательностей из множественного выравнивания. Для этого может быть использовано несколько алгоритмов, нужно выбрать верный, так как в некоторые алгоритмы могут быть использованы только для нуклеотидной последовательности, например, Tamura.
Мы выберем Uncorrected distance.
Distance Matrix
---------------

Uncorrected for Multiple Substitutions
Gap weighting is 0.000000

            1       2       3       4       5       6
          0.00   90.70   92.20   93.41   92.20   91.04          PSTS_ECOLI 1
                  0.00   93.60   89.22   91.86   90.70          PSTS_PASMU 2
                          0.00   94.61   92.59   94.30          PSTS_RHILO 3
                                  0.00   92.81   93.71          PSTS_HAEIN 4
                                          0.00   90.38          PSTS_XYLFA 5
                                                  0.00          PSTS1_MYCTU 6

Как и Blast, эта матрица показывает, что белок PSTS_PASMU - наиболее близкий гомолог белка PSTS_ECOLI.

PLOTCON

Программа строит график, который показывает сходство аминокислотных последовательностей в определенных позициях выравнивания.
















© Ксения Лежнина 2008