Выравнивание в формате FASTA — это не то же самое, что набор последовательностей в формате FASTA!

Занятие 9. Построение множественного выравнивания

  1. Создайте файл с аминокислотными последовательностями 5-10-ти гомологичных белков

    С помощью программы blastP на сервере NCBI найдите в SwissProt пять-десять разных гомологов Вашего белка.
    Ведите поиск только в таксоне Bacteria.
    Желательно получить выборку последовательностей со следующими свойствами:
    • 2-3 последовательности на 60-70% совпадающих с достаточно протяженным фрагментом заданной последовательности;
    • 3-4 последовательности на 50-60% совпадающих с достаточно протяженным фрагментом заданной последовательности;
    • минимум одна последовательность, совпадающая с заданной примерно на 35-45%
    • последовательности находок не должны быть слишком похожи друг на друга, как это сделать см. в подсказках
    Сохраните в одном файле (all.fasta) все выбранные последовательности вместе с последовательностью Вашего белка. Формат последовательностей — FASTA. Как это можно быстро сделать с помощью инструментов сервера BLAST см. в подсказках
  2. Постройте множественное выравнивание созданной выборки гомологичных последовательностей с помощью программы emma( реализация алгоритма ClustalW в пакете EMBOSS) и программы muscle (алгоритм MUSCLE).

    Обе программы размещены на сервере kodomo-count, см. подсказки.
  3. Исследуйте одно множественное выравнивание с помощью инструментов Genedoc.

    Импортируйте выравнивание, полученное с помощью emma, в Genedoc.
    Посмотрите, как оно выглядит.
    Измените конфигурацию проекта так, чтобы цветом были выделены только самые консервативные колонки выравнивания, консервативные на 100% — красным, а на 70% — темно-голубым, (см. подсказки).
    Сколько получилось колонок консервативных на 100%? А на 70%?
    Есть ли выраженный консервативный фрагмент (ряд последовательных консервативных колонок)?
    Посмотрите на положение гэпов, нет ли явных недоразумений...
    С помощью меню "Reports" получите матрицу попарной идентичности последовательностей, см. подсказки. .
    Сохраните ее в файле, который потом прикрепите к отчету.
    Не закрывайте Genedoc, все, что сделано, пригодится для следующих упражнений!
  4. Сравните два полученных выравнивания с помощью программы Genedoc

    Импортируйте выравнивание, полученное с помощью muscle, на ту же страницу Genedoc, где уже расположено раскрашенное выравнивание emma .
    Программа не допускает повторения имен последовательностей. Поэтому в выходном файле muscle добавьте букву 'm' к имени последовательности, например, превратите P69905 в mP69905.
    Объявите каждое выравнивание группой и получите независимую раскраску консервативных столбцов в каждом выравнивании, см. подсказки.
    Сравните выравнивания, наиболее существенные отличия опишите в протоколе, формат — HTML .
    Сохраните раскрашенное объединение выравниваний в отдельном HTML-файле, см. подсказки.
    Не закрывайте Genedoc, все пригодится для следующего упражнения!
  5. Сравните попарное выравнивание, порожденное множественным, с оптимальным попарным выравниванием

    Рассмотрите матрицу попарной идентичности, выберите две наиболее непохожие последовательности.
    Cкопируйте их из исходного файла all.fasta в отдельные файлы, к началу имени последовательности добавьте 'o'.

    Получите оптимальное попарное выравнивание выбранных последовательностей с помощью программы needle на сервере kodomo-count
    Для того, чтобы получить выравнивание в формате FASTA запустите программу с параметром -aformat fasta.

    Вернитесь к выравниванию в Genedoc и удалите все лишние последовательности (меню Sequence Dialog) , оставив из каждого выравнивания только пару выбранных последовательностей.
    Импортируйте оптимальное выравнивание на эту же страницу и объявите его новой группой.
    Получите независимую раскраску консервативных позиций в 3-х группах. Сравните полученное, наблюдения опишите в отчете. А раскрашенное объединение 3-х выравниваний экспортируйте в HTML-файл.
  6. **Дополнительное упражнение для тех, кто все успел

  7. Опишите в кратком отчете, что можно узнать о множественном выравнивании с помощью программы infoalign пакета EMBOSS.
    Все утверждения нужно проиллюстрировать конкретными данными на примере одного из полученных Вами выравниваний.

Формат отчета

Отчет нужно представить в виде HTML-странички с названием "MSA" и заголовком "Множественное выравнивание".
В отчете приведите следующее:
  • подзаголовок "Выбранные гомологичные последовательности", он же гиперссылка на текстовой файл all.fasta;
  • подзаголовок "Выравнивание с помощью программы emma", он же гиперссылка на выходной файл программы;
  • подзаголовок "Выравнивание с помощью программы muscle", он же гиперссылка на выходной файл программы;
  • подзаголовок "Матрица попарного совпадения последовательностей, получена на основе множественного выравнивания с помощью программы ....", он же гиперссылка на файл с матрицей;
  • подзаголовок "Сравнение 2-х множественных выравниваний";
    здесь нужно кратко описать наиболее бросающиеся в глаза различия (если, конечно, они есть!) и привести ссылку на страничку с раскрашенным выравниванием;
  • подзаголовок "Сравнение оптимального попарного выравнивания последовательностей ... и .... с их попарным выравниванием, порожденным множественным выравниванием"; кратко описать наиболее существенные отличия и привести гиперссылку на файл с раскрашенным выравниванием;
  • ** результаты выполнения дополнительного упражнения в произвольном формате.