Московский Государственный Университет имени М.В.Ломоносова Факультет Биоинженерии и Биоинформатики Учебный сайт Сеферяна Мелика |
---|
Полезные ссылки |
Множественное выравнивание последовательностей.I. Ознакомление с программой Muscle.Построим множественное выравнивание для вирусных белков - "дельта-антигенов".По запросу ([swissprot-Taxonomy:Deltavirus] & [swissprot-Description:delta]) в SRS найдено 34 последовательности. Далее файл с невыровенными последовательностями этих белков в fasta-формате delta.fasta обработаем программой muscle. На выходе имеем файл (также в fasta-формате), содержащий выравнивание delta_aligned.fasta. Невыровненные последовательности: картинка delta.gif, файл в формате .msf delta.msf Выровненные последовательности: картинка delta_aligned.gif, файл в формате .msf delta_aligned.msf Даже в наборе невыровненных последовательностей нашлись консервативные позиции, хотя мне кажется это скорее случайность, чем закономерность. Кроме того, программа muscle изменяет порядок следования последовательностей, как именно - пока не понятно. II. Выравнивание набора гомологов белка RISA_ECOLI.Выберем 10 гомологов данного белка (Evalue < 0.001), но не слишком похожих (Identity < 90%), из как можно более удаленных друг от друга таксонов. Файл с амонокислотными последовательностями этих белков: risa_ecoli_homologs.fastaПостроим для них выравнивание с помощью программы muscle. Файл с выравниванием в fasta-формате: risa_ecoli_homologs_aligned.fasta. В формате msf: risa_ecoli_homologs_aligned.msf. Участки с повышенной долей консервативных позиций:
В данном выравнивании, я думаю нет участков, лишенных биологического смысла. Хотя возможно программа может ошибиться с позициями гэпов в нефункциональных участках, но ведь нас они не интересуют, нам важны только консервативные позиции. III.* Другие программы множественного выравнивания.Выравнивание, построенное программой mafft:Файл с выравниванием в fasta-формате: risa_ecoli_homologs_mafft.fasta. В формате msf: risa_ecoli_homologs_mafft.msf. Выравнивание, построенное программой edialign: Файл с выравниванием в fasta-формате: risa_ecoli_homologs_edialign.fasta. В формате msf: risa_ecoli_homologs_edialign.msf. Все три программы нашли одни и те же консервативные позиции. Небольшие отличия имеются только лишь в гэпах на нефункциональных участках. Кроме того, mafft и edialign, в отличие от muscle не меняют порядок следования последовательностей из входного файла, а также зачем-то выравнивают последние ~20 а.о., что как мне кажется не несет в себе какого-либо биологического смысла. IV.* Знакомство с некоторыми программами обработки множественных выравниваний.1. Программа consambig. Программа consambig создает последовательность, В которой записаны все консервативные остатки (заглавными буквами), Несовпадающие а.о. отмечены буквой "X", если хотя бы в одной из исходных последовательностей стоит гэп, то эта позиция будет отмечена буквой в нижнем регистре.Вот результат применения этой программы к выравниванию, построенному muscle: risa_ecoli_homologs_consambig.fasta >EMBOSS_001 MFXGJXXXXXXXXXXXXXXXXXXXXXXXXxxxXXXXXxGXXXXXBGXCLTXXXXXXXgXX XXDXXXETXXXXXXXXXXXXXXXNXEXXXXXXXXXGGHXXXGHXXXXXXXXXXXXXxxxx XXXXXXXxXXXXXXXXXKGXXXXDGXSXTXXXXXXXXrdwXXXXXXPXTXXXTXXXXXXX XXXXNXEXDXXXXXXXXXXXXXXxxxxxxxxxxxxxxxxgfisПривлекают внимание буквы "J" и "B". В случае с "J" один из девяти изолейцинов был заменен на лейцин, в случае с "B" - один из девяти аспарагинов был заменен на аспарагиновую кислоту. Программа учитывает близкородственные замены. Кстати если подобных замен будет две, а не одна, то программа уже поставит "X". 2. Программа distmat. Программа создает матрицу, показывающую эволюционное расстояние между белками: risa_ecoli_homologs_aligned.distmatDistance Matrix --------------- Uncorrected for Multiple Substitutions Gap weighting is 0.000000 1 2 3 4 5 6 7 8 9 0.00 64.25 63.45 60.47 64.65 66.67 70.14 69.34 67.00 RISA_PHOLE 1 0.00 55.90 57.49 63.29 68.37 64.73 66.67 66.00 RISA_AQUAE 2 0.00 49.24 55.84 62.50 68.53 64.47 63.45 RISA_MYCTU 3 0.00 45.12 62.63 68.10 63.03 63.37 RISA_ACTPL 4 0.00 61.62 68.10 68.72 63.86 RISA_BACAM 5 0.00 65.15 61.11 61.42 RISA_CHLMU 6 0.00 55.66 54.41 RISA_BUCBP 7 0.00 34.80 RISA_ECOLI 8 0.00 RISA_HAEIN 9Не совсем ясно, как именно считать эволюционное расстояние между двумя белками, но действительно, если посмотреть, расстояние между найденными белками и RISA_ECOLI увеличивается по мере увеличения Evalue (при поиске гомологов RISA_ECOLI). То есть чем более различны 2 последовательности, тем они эволюционно дальше друг от друга. 3. Программа plotcon. Программа plotcon показывает распределение консервативных участков по длине выравнивания.Результат применения программы к выравниванию, построенному muscle: |