Множественное выравнивание последовательностей.

Ознакомление с программой Muscle.

Получаю файл с последовательностями 34 дельта-антигенов в формате fasta с помощью SRS (запрос: [swissprot-Taxonomy:Deltavirus*] & [swissprot-Description:delta*]), после чего сохраняем последовательности антигенов с помощью кнопки Save. Полученный файл. Этот файл импортирую в GeneDoc, полученное сохраняю в файл.

Пробую выравнять последовательности на глаз-полученное выравнивание.

Построю выравнивание с помощью программы Muscle, использую в Putty команду:

muscle –in delta.fasta –out delta_aligned.fasta
Получаю файл с выравниванием.

.

Затем импортирую полученный файл в GeneDoc. Исследуемые последовательности очень похожи между собой, это видно на невыровненных последовательностях - имеются консервативные участки. При выравнивание с помощью Muscle участки консервативности увеличились по протяженности. Из полученного выравнивания мы можем сделать вывод, что белки гомологичны, и их концы скорее всего не содержат биологического смысла(тк у некоторых они отсутствуют,но неуверенность возникает из-за того, что если концы имеютс у белков, то они очень похожи).

Выравнивание набора гомологов своего белка.

Найду и выберу 10 гомологов моего белка SYC_ecoli. Запущу BLAST по Swiss-Prot, ограничив поиск таксоном Bacteria и поставив порог на E-value, равный 0.001. Белки берем с процентом идентичности не более 90% (что бы не были слишком близки к моему белку) и не меньше 40%, желательно что бы выбранные белки не были слишком близки друг к другу Создаю файл в нем пишу список выбранных белков-гомологов и мой белок. С помощью putty получаю последовательности - команда

«seqret @myproteins.list myproteins.fasta»
Полученный файл. Затем с помощью muscle строю множественное выравнивание.

Множественное выравнивание в GeneDoc.

Можем заметить, что последовательности очень похожи между собой, поэтому мы можем говорить, что эти белки с высокой вероятностью являются гомологами. Мы можем заметить давольно длинные консервативные участки, как например: 1-17, 21-45, 63-78, 152-171, 188-213, 220-242, 250-281, 284-305(по белку SYC_ENT38). Очевидно, что количество таких протяженных участков указывает на гомологичность. Если внимательно рассмотреть выравнивание, то мы можем найти участки, содержащие недостоверное выравнивание, которое скорее всего не несет биологического смысла. Можно предположить, что для последовательности белка SYC_COXBU выравнивание не верно, т.к. она сдвинута относительно других последовательностей. Так же обратив внимание на участок 138-144 по последовательности SYC_COLP3 - во всех последовательностях кроме указанной этот участок геповый - можем предположить, что этот участок выполняет какую-нибудь функцию в белке, а в других нет, или же не несет никакой смысловой нагрузки. Похожие участки наблюдаются в 188-191 по SYC_BLOPB, 347-356 и 386-390 по SYC_THEYD. Скорее всего концы последовательностей (с 486 по SYC_THEYD)не влияют на пространственную структуру белков и выполняемую ими функцию.

Другие программы множественного выравнивания.

Изучаем программы mafft и edialign с помощью Putty, а там отвечаем на задаваемые программой вопросы. Программа edialign принимает один входной файл и выдаёт два выходных файла, из которых первый содержит "текст для чтения", а второй — выравнивание в fasta-формате (поэтому только второй пригоден для обработки другими программами, например для импорта в GeneDoc).

При работе с программой mafft получила файл. Файл в GeneDoc.

Полученное выравнивание очень похоже с выравнивание в Muscle. Одно из отличий заключается в том, что в mafft устранена ошибка в начале последовательностей. Заметно, что это выравнивание является более осмысленным.

В программе edialign получила выравнивание и файл для чтения, а так же файл из GeneDoc.

Новое выравнивание так же устраняет ошибку в начале выравнивания, помимо этого edialign немного меняет распложение гепов - на мой взгляд это расположение не влиет на пространственные структуры и соответственно выполняемые функции, т.к. не несет биологического смысла. Анализируя все три полученных выравнивания, понимаем, что все три программы выдали очень хорошие и приблизительно похожие выравнивания, но ,на мой взгляд, успешнее всех справилась программа mafft.

Знакомство с некоторыми программами обработки множественных выравниваний.

Попробуем самостоятельно освоить программы consambig, distmat и plotcon. Чтобы прочитать подробное описание программы, выполним команду tfm с параметром — именем программы, например «tfm distmat».

Consambig

создает последовательности из множества составных выравниваний. Программа на основе можественного выравнивания строит последовательность общего вида. Полученный файл, обработка выравнивания muscle.

Distmat

создает матрицу,показывающее эволюционное расстояние между двумя белками. Матрица представляет собой половину квадрата, на главной диагонале располагаются нули (это эволюционное расстояние белка самим с собой), а выше диагонали эволюционное расстояние между белком, расположенным выше по вертикали, и белком, расположенным правее по горизонтали). Существует несколько методов подсчета эволюционного расстояния между парами белков (рассматривая выравнивание в muscle):

первый - Uncorrected distances (подсчет расстояния без поправки на множественные замены). Полученный файл.
второй - Jukes-Cantor(метод делает поправку на множственные замены).Полученный файл.
третий - Kimura Protein distance(метод делает поправку на множественные замены,игнорирует гэпы и при расчете расстояния учитывает только точные совпадения).
Полученный файл.

Plotcon

изображает график консервативности а.о. последовательностей во множественном выравнивании. Обработаем выравнивание из программы mafft - полученный файл.


Второй семестр
На начальную страницу


©Пискунова Юлия 2008