Занятие 8. Множественное выравнивание последовательностей.

Задание 1. Ознакомление с программой Muscle.
Через SRS мне надо было получить файл с последовательностями вирусных белков, называемых "дельта-антигенами", в формате fasta .
Для этого был составлен запрос:
([swissprot-Taxonomy:Deltavirus*] &  [swissprot-Description:delta*])
Было найдено 34 записи, результат поиска я импортировала в файл с форматом fasta (см. здесь). С помощью программы Genedoc я попыталась сделать множественное выравнивание вручную. Результат моей попытки можно посмотреть здесь.
С помощью программы Muscle я получила автоматическое выравнивание данных последовательностей. Для этого я ввела команду:
muscle -in delta.fasta -out delta_aligned.fasta
Выходной файл - delta_aligned.fasta.
Множественное выравнивание дельта-антигенов, полученное с помощью Muscle (показать в отдельном окне):


Изображение было импортировано из Genedoc.
При сравнении оказалось, что выравнивания, полученные мной и Muscle, различаются лишь на 10-20 позициях выравниваний. Из-за этих различий автоматическое выравнивание оказалось лучше, вследствие появления консервативного участка, отсутствующего в моем выравнивании. Его появление связано с различным расположением гэпов; если в моем выравнивании пропуски стоят на 20 позиции выравнивания, то в данном, они на 10. Могу также заметить, что это выравнивание удобней, т.к. белки в нем располагаются по степени схожести (то есть наиболее близкие друг к другу белки оказываются здесь соседними).
Задание 2. Выравнивание набора гомологов белка NadB_Ecoli.
На составленный в BLASTP запрос о вероятных гомологах белка NadB_Ecoli в царстве Bacteria (порог E-value=0,001) было найдено 50 кандидатов с E-value от 0 (например, белок NadB_Eco57) до 3*10-19 (белок FrdA_Sheon). Из них я выбрала следующие:
·NadB_Yerpe
·NadB_Vibch
·NadB_Anasp
·NadB_Neimb
·NadB_Strco
·NadB_Mycle
·NadB_Aquae
·NadB_Pseae
·NadB1_Ralso
Белок % идентичности E-value
NadB_Yerpe 83% 0,0
NadB_Vibch 75% 0,0
NadB_Pseae 64% 0,0
NadB1_Ralso 60% 0,0
NadB_Neimb 41% 1e-100
NadB_Anasp 41% 9e-99
NadB_Strco 42% 3e-86
NadB_Mycle 42% 3e-69
NadB_Aquae 42% 3e-69
Данные белки были выбраны также с учетом процента идентичности выравнивания каждого из них с белком NadB_Ecoli. Используемый допустимый интервал процента идентичности составил 38-83. Чтобы получить файл с последовательностями данных белков я создала "лист-файл" myproteins.list , содержащий список их идентификаторов, и ввела следующую команду:
seqret @myproteins.list myproteins.fasta
Выходной файл - myproteins.fasta.
При помощи программы Muscle я получила множественное выравнивание данных белков (multialign.fasta). Изображение этого выравнивания можно посмотреть здесь.
Как видно из рисунка, множественное выравнивание имеет довольно много участков с повышенной долей консервативных позиций. Наиболее большие из них расположены на 232-280, 292-301 и на 421-436 378-440 позициях выравнивания (257-266 и 336-398 а.о. белка NadB_Ecoli соответственно). Также здесь есть много участков с чередованием сходных и консервативных позиция (например, 321-332 и 384-399 позиции выравнивания (286-297 и 342-357 а.о. белка NadB_Ecoli соответственно). Присутствуют и участки, в которых выравнивание недостоверно, то есть скорее всего не имеет биологического смысла. Примеры таких фрагментов имеют следующие координаты: 1-29 (1-9), 461-470 (408-424), 598-631(533-540) и т.д. (в скобках указываются а.о. белка NadB_Ecoli, числа без скобок - позиции выравнивания).
Задание 3*. Другие программы множественного выравнивания.
a) Программа mafft
С помощью данной программы я получила следующее выранивание:

Выравнивание в fasta-формате: maffr_aln.fasta
b) Программа edialign
Для построения множественного выравнивания я также использовала программу edialign. Выходной файл - edialign.fasta.
Изображение данного выравнивания (импортировано из GeneDoc):

Задание 4*. Знакомство с некоторыми программами обработки множественных выравниваний.
Выполнив команду:
wossname alignment
я посмотрела список программ EMDOSS, так или иначе связанных с выравниваниями:
aligncopy        Reads and writes alignments
aligncopypair    Reads and writes pairs from alignments
consambig        Create an ambiguous consensus sequence from a multiple alignment
diffseq          Compare and report features of two similar sequences
distmat          Create a distance matrix from a multiple sequence alignment
dotmatcher       Draw a threshold dotplot of two sequences
dotpath          Draw a non-overlapping wordmatch dotplot of two sequences
dottup           Displays a wordmatch dotplot of two sequences
edialign         Local multiple alignment of sequences
ehmmbuild        Build a profile HMM from an alignment
emma             Multiple sequence alignment (ClustalW wrapper)
est2genome       Align EST sequences to genomic DNA sequence
extractalign     Extract regions from a sequence alignment
infoalign        Display basic information about a multiple sequence alignment
matcher          Waterman-Eggert local alignment of two sequences
megamerger       Merge two large overlapping DNA sequences
merger           Merge two overlapping sequences
needle           Needleman-Wunsch global alignment of two sequences
pepwindowall     Draw Kyte-Doolittle hydropathy plot for a protein alignment
plotcon          Plot conservation of a sequence alignment
polydot          Draw dotplots for all-against-all comparison of a sequence set
prettyplot       Draw a sequence alignment with pretty formatting
prophecy         Create frequency matrix or profile from a multiple alignment
seqmatchall      All-against-all word comparison of a sequence set
showalign        Display a multiple sequence alignment in pretty format
stretcher        Needleman-Wunsch rapid global alignment of two sequences
supermatcher     Calculate approximate local pair-wise alignments of larger sequences
tranalign        Generate an aligment of nucleic coding regions from aligned proteins
water            Smith-Waterman local alignment of sequences
wordfinder       Match large sequences against one or more other sequences
wordmatch        Finds regions of identity (exact matches) of two sequences
Как видно из списка, программа consambig создает "неоднозначную" последовательность, т.е. такую последовательность, где определены все консервативные участки, а остальные фрагменты заменены символом X (иначе говоря, здесь может стоять любая аминокислота). Выходной файл данной программы для моего множественного выравнивания - cons.fasta.
Меню
· Главная
· Результаты исследований
· Семестры
· Полезные ссылки
· Контакты
© Ирина Поверенная, 2008