|
Занятие 8. Множественное выравнивание последовательностей.
Задание 1. Ознакомление с программой Muscle.
Через SRS мне надо было получить файл с последовательностями вирусных белков, называемых "дельта-антигенами", в формате fasta
.
Для этого был составлен запрос:
([swissprot-Taxonomy:Deltavirus*] & [swissprot-Description:delta*])
Было найдено 34 записи, результат поиска я импортировала в файл с форматом fasta (см. здесь).
С помощью программы Genedoc я попыталась сделать множественное выравнивание вручную. Результат моей попытки можно посмотреть здесь.
С помощью программы Muscle я получила автоматическое выравнивание данных последовательностей. Для этого я ввела команду:
muscle -in delta.fasta -out delta_aligned.fasta
Выходной файл - delta_aligned.fasta.
Множественное выравнивание дельта-антигенов, полученное с помощью Muscle (показать в отдельном окне):
Изображение было импортировано из Genedoc.
При сравнении оказалось, что выравнивания, полученные мной и Muscle, различаются лишь на 10-20 позициях выравниваний.
Из-за этих различий автоматическое выравнивание оказалось лучше, вследствие появления консервативного участка, отсутствующего в моем выравнивании. Его появление связано с различным расположением гэпов; если в моем выравнивании пропуски стоят на 20 позиции выравнивания, то в данном, они на 10.
Могу также заметить, что это выравнивание удобней, т.к. белки в нем располагаются по степени схожести (то есть наиболее близкие друг к другу белки оказываются здесь соседними).
Задание 2. Выравнивание набора гомологов белка NadB_Ecoli.
На составленный в BLASTP запрос о вероятных гомологах белка NadB_Ecoli в царстве Bacteria (порог E-value=0,001) было найдено 50 кандидатов с E-value от 0 (например, белок NadB_Eco57) до 3*10-19 (белок FrdA_Sheon).
Из них я выбрала следующие:
·NadB_Yerpe
·NadB_Vibch
·NadB_Anasp
·NadB_Neimb
·NadB_Strco
·NadB_Mycle
·NadB_Aquae
·NadB_Pseae
·NadB1_Ralso
Белок |
% идентичности |
E-value |
NadB_Yerpe |
83% |
0,0 |
NadB_Vibch |
75% |
0,0 |
NadB_Pseae |
64% |
0,0 |
NadB1_Ralso |
60% |
0,0 |
NadB_Neimb |
41% |
1e-100 |
NadB_Anasp |
41% |
9e-99 |
NadB_Strco |
42% |
3e-86 |
NadB_Mycle |
42% |
3e-69 |
NadB_Aquae |
42% |
3e-69 |
Данные белки были выбраны также с учетом процента идентичности выравнивания каждого из них с белком NadB_Ecoli.
Используемый допустимый интервал процента идентичности составил 38-83.
Чтобы получить файл с последовательностями данных белков я создала "лист-файл" myproteins.list
, содержащий список их идентификаторов, и ввела следующую команду:
seqret @myproteins.list myproteins.fasta
Выходной файл - myproteins.fasta.
При помощи программы Muscle я получила множественное выравнивание данных белков (multialign.fasta).
Изображение этого выравнивания можно посмотреть здесь.
Как видно из рисунка, множественное выравнивание имеет довольно много участков с повышенной долей консервативных позиций.
Наиболее большие из них расположены на 232-280, 292-301 и на 421-436 378-440 позициях выравнивания (257-266 и 336-398 а.о. белка NadB_Ecoli соответственно).
Также здесь есть много участков с чередованием сходных и консервативных позиция (например,
321-332 и 384-399 позиции выравнивания (286-297 и 342-357 а.о. белка NadB_Ecoli соответственно).
Присутствуют и участки, в которых выравнивание недостоверно, то есть скорее всего не имеет биологического смысла.
Примеры таких фрагментов имеют следующие координаты: 1-29 (1-9), 461-470 (408-424), 598-631(533-540) и т.д. (в скобках указываются а.о. белка NadB_Ecoli, числа без скобок - позиции выравнивания).
Задание 3*. Другие программы множественного выравнивания.
a) Программа mafft
С помощью данной программы я получила следующее выранивание:
Выравнивание в fasta-формате: maffr_aln.fasta
b) Программа edialign
Для построения множественного выравнивания я также использовала программу edialign. Выходной файл - edialign.fasta.
Изображение данного выравнивания (импортировано из GeneDoc):
Задание 4*. Знакомство с некоторыми программами обработки множественных выравниваний.
Выполнив команду:
wossname alignment
я посмотрела список программ EMDOSS, так или иначе связанных с выравниваниями:
aligncopy Reads and writes alignments
aligncopypair Reads and writes pairs from alignments
consambig Create an ambiguous consensus sequence from a multiple alignment
diffseq Compare and report features of two similar sequences
distmat Create a distance matrix from a multiple sequence alignment
dotmatcher Draw a threshold dotplot of two sequences
dotpath Draw a non-overlapping wordmatch dotplot of two sequences
dottup Displays a wordmatch dotplot of two sequences
edialign Local multiple alignment of sequences
ehmmbuild Build a profile HMM from an alignment
emma Multiple sequence alignment (ClustalW wrapper)
est2genome Align EST sequences to genomic DNA sequence
extractalign Extract regions from a sequence alignment
infoalign Display basic information about a multiple sequence alignment
matcher Waterman-Eggert local alignment of two sequences
megamerger Merge two large overlapping DNA sequences
merger Merge two overlapping sequences
needle Needleman-Wunsch global alignment of two sequences
pepwindowall Draw Kyte-Doolittle hydropathy plot for a protein alignment
plotcon Plot conservation of a sequence alignment
polydot Draw dotplots for all-against-all comparison of a sequence set
prettyplot Draw a sequence alignment with pretty formatting
prophecy Create frequency matrix or profile from a multiple alignment
seqmatchall All-against-all word comparison of a sequence set
showalign Display a multiple sequence alignment in pretty format
stretcher Needleman-Wunsch rapid global alignment of two sequences
supermatcher Calculate approximate local pair-wise alignments of larger sequences
tranalign Generate an aligment of nucleic coding regions from aligned proteins
water Smith-Waterman local alignment of sequences
wordfinder Match large sequences against one or more other sequences
wordmatch Finds regions of identity (exact matches) of two sequences
Как видно из списка, программа consambig создает "неоднозначную" последовательность, т.е. такую последовательность, где определены все консервативные участки, а остальные фрагменты заменены символом X (иначе говоря, здесь может стоять любая аминокислота).
Выходной файл данной программы для моего множественного выравнивания - cons.fasta.
|
|
|