В БД SRS я нашёл последовательности дельта-антигенов из вирусов рода Deltavirus.
Для этого был осуществлён поиск слова "delta" по полю Description и "Deltavirus" по полю Taxonomy,
так как все дельта антигены происходят из этого рода вирусов.
Найденные последовательности я сохранил в файл delta.fasta
Сперва я выполнил выравнивание этих последовательностей вручную.
(msf).
Затем я выровнял те же последовательности с помощью программы muscle
(msf).
Картинка с выравниваниями
Выравнивания получились очень похожими, совпали почти все схожие и идентичные участки.
2) Выравнивание набора гомологов своего белка
С помощью BLAST я получил все гомологи своего белка (OMPT_ECOLI) среди бактерий с E-value < 0.001.
К сожалению, гомологов оказалось не так много, всего 5, и все
они достаточно близкородственны, пренадлежат организмам отряда Enterobacteriaceae. Эти белки:
OMPT_ECOLI, OMPT_ECO57, OMPP_ECOLI, ICSP_SHIFL, PGTE_SALTY, COLY_YERPE.
Среди них я выбрал те, которые принадлежат разным родам организмов,
затем получил выравнивание этих белков в программе muscle
(msf).
Картинка с выравниванием
Повышена доля консервативных а.о. в следующих участках:
Выравнивание | OMPT_ECOLI |
60-82 | 56-78 |
120-174 | 116-170 |
185-207 | 181-203 |
260-274 | 256-270 |
303-322 | 298-317 |
Биологического смысла, скорее всего, не имеют участки:
Выравнивание | OMPT_ECOLI |
1-32 | 1-28 |
275-300 | 271-296 |
Участки, не попавшие ни в одну из групп, не так
***
1) Другие программы множественного выравнивания
Я выравнял гомологи своего белка с помощью программ mafft и edialign.
Картинка с выравниванием
Как и следовало ожидать, в выравниваниях, сделанных различными программами, совпали достаточно консервативные участки. Но имеются различия в некоторых местах. Это связано с тем, что программы используют разные алгоритмы выравнивания. Вероятно, идеального алгоритма, находящего выравнивание с максимальным весом, ещё не придумали.
2) Знакомство с некоторыми программами обработки множественных выравниваний
I. Сперва программа consambig. По множественному выравниванию она создаёт последовательность,
состоящую из а.о. и знаков "X". Аминокислотные остатки ставятся на те позиции, в которых
во множественном выравнивании все а.о. идентичны, а "X" - на все остальные. Если хотя бы в одной
из последовательностей имеется гэп, то используются строчные латинские буквы, иначе - прописные.
В качестве входного файла я взял выравнивание гомологов моего белка, сделанное программой muscle.
>EMBOSS_001 mxXKXXXJXXXXXXXXXXXXXXXXXXXXpbxsPDXXXXXXSXGXLXGKXXEXXYXXxXXG RKXSQLDWKXXNXXXXXGXJXWXXXXXXXXXXXGWTXLXXXXXXMXDXDWXXXXXXXxWT DXSXHPXTXXXXANEXXLNXKGWLLXXXBYXXGXXAGYQEXRXSXXAXGGSYXYsXXXXX XbxxGXXPXGXRXIGYXQXFXXPYIGLXXXYRXXBFEXXXXXKXSXWVXXXDXDXHYXpg XXXXXXXXXXXXXYXXXXXBXGYYXTXXAKXXXEXXXXXXXXXKGXTXXXXXXXXXXXXX gXBXAXIXXXXXXXXAGJXYXFII. Программа distmat. Эта программа рассчитывает, насколько далеки выравненные последовательности, выражая это в количестве замен на 100 а.о. Результат выдаётся в виде таблицы.
Входной файл тот же.
1 2 3 4 0.00 32.56 73.42 95.57 PGTE_SALTY 1 0.00 70.64 93.81 COLY_YERPE 2 0.00 55.27 OMPT_ECOLI 3 0.00 ICSP_SHIFL 4III. И программа plotcon. По выравниванию программа строит диаграмму консервативности. Более консервативные участки имеют большее значение на диаграмме.