Московский Государственный Университет имени М.В.Ломоносова Факультет Биоинженерии и Биоинформатики Учебный сайт Сеферяна Мелика |
---|
Полезные ссылки |
Работа в командной строке Linux. Программы выравнивания последовательностей пакета EMBOSS.Обязательные задания.I. Работа в командной строке Linux.
II. Построение и сравнение оптимального глобального и оптимального локального выравнивания 2-х последовательностей.1. Построение полного (глобального) оптимального выравнивания с помощью программы needle пакета EMBOSS.Белок RISA_MYCTU имеет с уже встречавшимся нам RISA_ECOLI одинаковую функцию и почти такую же длину аминокислотной последовательности, вероятно они являются гомологами. Построим для них оптимальное глобальное выравнивание. Файл ndl_auto.needle, создаваемый программой needle содержит:######################################## 1. Название использованной программы (needle). 2. Дата использования программы. 3. Параметры вызова программы (названия файлов с последовательностями, выходного файла, использованные штрафы за гэп и его удлинение.) 4. Формат выравнивания. (srspair) 5. Название отчетного файла ######################################## #================================== 1. Количество сравниваемых последовательностей, их названия. 2. Параметры выравнивания: использованная матрица (BLOSSUM62), штрафы за создание гэпа и его удлинение. (по умолчанию 10 и 0,5 соответственно) 3. Длина выравнивания, процент идентичности, процент сходства, процент гэпов, вес выравнивания. #================================== Далее идет само выравнивание, причем "|" означает совпадение, ":" - близкородственную замену, "." - замену с отрицательным весом. Задание штрафов за гэпы, отличных от заданных по умолчанию. опустив опцию -auto можно задавать штрафы за гэпы вручную. В файле ndl_more.needle использованы штрафы за создание гэпа и его удлинение 20 и 1 соответственно. Очевидно в таком выравнивании должно быть меньше гэпов, так как они штрафуются строже, чем в первом выравнивании (действительно, 20 против 28). Кроме того процент идентичности должен быть меньше, так как создание гэпов - это по сути инструмент его увеличения (действительно, 35.0 против 35.3). 2. Построение локального (частичного) оптимального выравнивания тех же последовательностей. с помощью программы water пакета EMBOSS
Получение выдачи в формате, пригодном для импорта в GeneDoc.
3. Сравнение полученных выравниваний
Да, есть. 56-ая позиция последовательности RISA_ECOLI (G) в выравнивании со штрафами по умолчанию соответствует 57-ой позиции последовательности RISA_MYCTU (G). При увеличении штрафов, (см. ndl_more.needle) гэп стоящий между 54-ой и 55-ой позицией последовательности RISA_ECOLI уменьшается, и во втором выравнивании той же 56-ой позиции RISA_ECOLI (G) будет соответствовать 56-ая позиция RISA_MYCTU (D) Со штрафами за гэпы по умолчанию: v RISA_ECOLI 51 VTEI--NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHL 98 |.:: :|...: |:|.|||..:|||:|:.|..||:||||.....:|||: RISA_MYCTU 50 VVDVLPDGQFTA-DVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHI 98 С удвоенными штрафами за гэпы: v RISA_ECOLI 51 VTEI-NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHLM 99 |.:: .....:.|:|.|||..:|||:|:.|..||:||||.....:|||:: RISA_MYCTU 50 VVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHIV 99 Да, есть. 60-ая позиция последовательности RISA_ECOLI (S) в выравнивании со штрафами по умолчанию соответствует 61-ой позиции последовательности RISA_MYCTU (A). При увеличении штрафов, (см. wtr_more.water) во втором выравнивании ей будет соответствовать 60-ая позиция RISA_MYCTU (T) Со штрафами за гэпы по умолчанию: v RISA_ECOLI 51 VTEI--NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHL 98 |.:: :|...: |:|.|||..:|||:|:.|..||:||||.....:|||: RISA_MYCTU 50 VVDVLPDGQFTA-DVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHI 98 С удвоенными штрафами за гэпы: v RISA_ECOLI 39 GASVAHNGCCLTVTEI-NGNHVSFDLMKETLRITNLGDLKVGDWVNVERA 87 |.|:|.||.||||.:: .....:.|:|.|||..:|||:|:.|..||:||| RISA_MYCTU 38 GDSIAVNGVCLTVVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLERA 87 Да, есть.129-ая позиция последовательности RISA_ECOLI (Q) в выравнивании со штрафами по умолчанию соответствует 128-ой позиции последовательности RISA_MYCTU (S). При увеличении штрафов, (см. ndl_more.needle) во втором выравнивании ей будет соответствовать гэп, стоящий между 128-ой и 129-ой позициями RISA_MYCTU. Этот пример замечателен тем, что второе выравнивание - с большими штрафами за гэпы чем первое, то есть вероятность появления в нем дополнительного гэпа очень мала. Со штрафами за гэпы по умолчанию: v RISA_ECOLI 99 MSGHIMTTAEVAKILTSENNRQIWFKVQ---DSQLMKYILYKGFIGIDGI 145 :.||:..|.|:.....||: |..|: .:.:.:|::.||.|.:||| RISA_MYCTU 99 VQGHVDATGEIVARCPSEH----WEVVRIEMPASVARYVVEKGSITVDGI 144 С удвоенными штрафами за гэпы: v RISA_ECOLI 100 SGHIMTTAEVAKILTSENNRQIWFKVQDSQLMKYILYKGFIGIDGISLTV 149 .||:..|.|:.....||:...:..::..| :.:|::.||.|.:||||||| RISA_MYCTU 100 QGHVDATGEIVARCPSEHWEVVRIEMPAS-VARYVVEKGSITVDGISLTV 148 Да, есть. 152-ая позиция последовательности RISA_ECOLI (V) в выравнивании со штрафами по умолчанию соответствует 154-ой позиции последовательности RISA_MYCTU (E). При уменьшении штрафов, (см. wtr_less.water) во втором выравнивании ей будет соответствовать гэп, стоящий между 154-ой и 155-ой позициями RISA_MYCTU. Со штрафами за гэпы по умолчанию: v RISA_ECOLI 146 SLTV---GEVTPTRFCVHLIPETLERTTLGKKKLGARVNIEIDPQTQAVV 192 |||| |......|.|.|||.|.|.||||...:|.|||:|:| .|. RISA_MYCTU 145 SLTVSGLGAEQRDWFEVSLIPTTRELTTLGSAAVGTRVNLEVD----VVA 190 С уменьшенными вдвое штрафами: v RISA_ECOLI 129 QLMKYILYKGFIGIDGISLTV---G-EVTPTR--FCVHLIPETLERTTLG 172 .:.:|::.||.|.:||||||| | | .| |.|.|||.|.|.|||| RISA_MYCTU 128 SVARYVVEKGSITVDGISLTVSGLGAE---QRDWFEVSLIPTTRELTTLG 174 Нет, не соответствуют. например выравнивание с уменьшенными штрафами построено для фрагментов: RISA_ECOLI - с 1 по 210 а.о., RISA_MYCTU - с 1 по 201 а.о. (см. wtr_less.water) А выравнивание с увеличенными штрафами: RISA_ECOLI - с 39 по185 а.о., RISA_MYCTU - с 38 по 187 а.о.(см. wtr_more.water) В моем случае это так, потому что данные белки имеют сходную структуру (включают в себя 2 повтора). Однако в общем случае это не всегда так. Например возьмем 2 белка: первый имеет вид: "домен №1 - домен №2", второй - те же домены, но в обратном порядке: "домен №2 - домен №1". Оптимальное локальное выравнивание покажет нам, например, родство первого домена первого белка и второго домена второго белка. А глобальное выравнивание - нечто бессмысленное с биологической точки зрения. Очевидно, такое локальное выравнивание не будет совпадать с соответствующей частью глобального. Дополнительные задания.I. Построение карты локального сходства.Более-менее четкая диагональная линия наводит нас на мысль, что эти белки имеют общее происхождение. Линии по разным сторонам от нее, я думаю, соответствуют сравнению двух повторов, их которых состоят данные белки.II. Получение нескольких субоптимальных локальных выравниваний заданных последовательностей с помощью программы matcher пакета EMBOSS.файл risa_ecoli_risa_myctu.matcher содержит 10 субоптимальных выравниваний. Наиболее интересные из них, на мой взгляд:#======================================= # # Aligned_sequences: 2 # 1: RISA_ECOLI # 2: RISA_MYCTU # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # # Length: 45 # Identity: 19/45 (42.2%) # Similarity: 31/45 (68.9%) # Gaps: 1/45 ( 2.2%) # Score: 86 # # #======================================= 140 150 160 170 180 RISA_E IGIDGISLTVGEVTPT-RFCVHLIPETLERTTLGKKKLGARVNIE : ..:. ::: .: : .: .. ::: :. ::. . :.:::.: RISA_M IAVNGVCLTVVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLE 50 60 70 80 #======================================= # # Aligned_sequences: 2 # 1: RISA_ECOLI # 2: RISA_MYCTU # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # # Length: 85 # Identity: 21/85 (24.7%) # Similarity: 38/85 (44.7%) # Gaps: 3/85 ( 3.5%) # Score: 55 # # #======================================= 10 20 30 40 50 RISA_E GIVQGTAKLVSIDEKPNFRTHVVELPDHMLDGLETGASVAHNGCCLTVTE : : : ..:. .. .:.: . . :. .: :::. RISA_M GHVDATGEIVARCPSEHWEVVRIEMPASVARYVVEKGSITVDGISLTVSG 110 120 130 140 150 60 70 80 RISA_E INGNHVSF---DLMKETLRITNLGDLKVGDWVNVE . . :. : .: :: :: ::.: RISA_M LGAEQRDWFEVSLIPTTRELTTLGSAAVGTRVNLE 160 170 180По данным записи UniProt в белке RISA_ECOLI с 1 по 97 и с 98 по 195 позицию расположены лумазин-связывающие домены. В белке RISA_MYCTU они расположены на позициях с 1 по 97 и с 98 по 197. Можно заметить, что первое выравнивание относится ко второму домену RISA_ECOLI и первому домену RISA_MYCTU . А второе - наоборот (первый домен RISA_ECOLI со вторым доменом RISA_MYCTU). |