Учебный сайт Люды Андреевой


Программа Muscle

Найдём последовательности дельта-антигенов вирусов рода Deltavirus в банке Swiss-Prot. Для этого воспользуемся поиском SRS и составим следующий запрос:
([swissprot-Description:delta*] & [swissprot-Taxonomy:deltavirus*]),
который ограничивает поиск белков по таксономии и описанию: найдены белки вирусов рода Deltavirus, в описании которых есть слово "delta". В получившемся наборе присутствуют большие и малые субъединицы дельта-антигенов (small and large delta antigen). Сохраним последовательности в fasta-формате (Save->Save with view:FastaSeqs).
Откроем получившийся файл программой Genedoc и построим выравнивание вручную, пытаясь найти наиболее консервативные участки. Результат такого выравнивания можно увидеть на рисунке ниже или в файле.

Далее построим выравнивание средствами программы Muscle, установленной на машине kodomo-count. Для этого соединимся с машиной kodomo-count и в командной строке выполним команду: muscle -in delta.fasta -out delta_aligned.fasta
Импортируем полученный файл в Genedoc и получим следующую картинку:

Выравнивания заметно различаются только в первом участке длиной около 50 символов, причём выравнивание, сделанное Muscle, лучше, поскольку фиксирует большее количество консервативных участков при таком же, приблизительно, количестве гэпов. Несмотря на то, что выравнивание Muscle даёт более стройную картину расположения гэпов (гэпы располагаются протяжёнными столбцами, и лишь у нескольких белков остаются аминокислоты, что говорит о возможном "вклинивании" лишних нуклеотидов), наиболее протяженные биологически значимые участки определены в обоих выравниваниях одинаково, а это значит, что Muscle объективно оценивает функционально важные участки и её можно уверенно применять для поиска гомологичных структур.

Выравнивание набора гомологов белка BIOH_ECOLI

С помощью программы BLASTP найдём гомологов белка BIOH_ECOLI (p13001), принадлежащих к бактериям. Выберем те из них, процент идентичности у которых с белком BIOH_ECOLI составляет 40-80%. Проследим также, чтобы белки не относились к родственным организмам (первые три буквы, указывающие на род, должны быть различны у всех белков). Идентификаторы выбранных белков находятся в файле myproteins.list.
Соединившись с машиной kodomo-count создадим файл с последовательностями выбранных белков с помощью команды:
seqret @myproteins.list myproteins.fasta
Для выравнивания последовательностей воспользуемся Muscle (предыдущий заголовок) и получим файл с выравниванием. С помощью Genedoc раскрасим выравнивание и получим рисунок, представленный ниже:

Из рисунка видно, что все гомологи содержат определённое количество консервативных участков (выделены красным), однако они обладают маленькой протяжённостью: можно обнаружить большие консервативные блоки среди первых 100 аминокислот, в остальной части выравнивания наблюдаются частые совпадения одной аминокислоты во всех белках, что может быть связано с пространственным рсположением активного центра белков.
Выравнивание показывает примерно такое же количество полуконсервативных участков (выделено жёлтым). Они составлены преимущественно гидрофобными аминокислотами; встречаются также полуконсервативные участки с триптофаном, пролином, серином и положительно заряженными аминокислотами.
В выравнивании очень мало гэпов, их длина не превышает двух, причём почти все гэпы биологически обоснованы, поскольку располагаются между консервативными участками: в позициях 35-36, вероятно, у BIOH_SERMA произошла потяря аминокислоты, а у BIOH_BUCBP произошла вставка аминокислоты, как и у BIOH_NITEU в 123 позиции. Аналогичные "вставки" произошли и у BIOH_IDILO в позициях 56-57 и у BIOH_WIGBR в 227-228 позициях, но есть причины сомневаться в реальности этих мутаций.
Сомневаться в справедливости выравнивания приходится на участках 1-10, 58-84, 149-175 217-242. Здесь выравнивание отличается отсутствием консервативных и полуконсервативных позиций, в то же время присутствует большое количество столбцов, в которых совпадения аминокислот наблюдается чуть больше, чем у половины белков (выделены зелёным). На мой взгляд, такие совпадения не являются биологически оправданными, так как очень маловероятно, что аминокислота, присутствовавшая в предковом белке, заменится на другую ровно у половины родственных белков, причём заменится на разные аминокислоты. В связи с этим сложно упомянутые в предыдущем абзаце гэпы (BIOH_IDILO - 56-57, BIOH_WIGBR - 227-228) с реальными мутациями. Поскольку эти гэпы не находятся между консервативными позициями, и за ними следуют участки выравнивания с недостоверными совпадениями (выделены зелёным), вполне вероятно, что программа рассавила их с целью увеличения веса выравнивания. Заметим, что перемещение этих гэпов не приведёт к нахождению консервативных и полуконсервативных позиций, значит, при выравнивании вручную мы могли бы поставить их в любом месте указанных "недостоверных" участков, а значит, сложно говорить о наличии или отсутствии мутации в каком-либо определённом месте.
Поскольку участков выравнивания с гэпами немного, а возможность утери ДНК шести нуклеотидов довольно вероятна, выравнивание вполне биологически обосновано и даёт представление о большом количестве особенностей выбранных гомологичных белков.

Мной также были выполнены дополнительные задания.


©Andreeva_2008