Московский Государственный Университет имени М.В.Ломоносова

Факультет Биоинженерии и Биоинформатики

Учебный сайт Сеферяна Мелика

Главная

I Семестр

II Семестр

Проекты

Официальный сайт ФББ

Официальный сайт МГУ

Полезные ссылки

Работа в командной строке Linux. Программы выравнивания последовательностей пакета EMBOSS.

Обязательные задания.

I. Работа в командной строке Linux.

  1. Смена активной директории и просмотр содержимого директорий.
    • Команда "ls" показывает содержимое текущей директории.
    • Команда "ls .." показывает содержимое директории, в которой находится текущая.
    • Команда "cd .." осуществляет переход в директорию на один уровень выше, "ls" показывает ее содержимое.
    • Повторяя эту пару команд можно дойти до корневой директории на сервере. Тогда команда "cd .." перестанет выполняться, так как директории выше этой попросту нет.
    • Команда "pwd" показывает полное имя текущей директории.

  2. Создание и просмотр файлов.
    • После выполнения программы seqret sw:P0AFU8 -auto в директории появился файл risa_ecoli.fasta c аминокислотной последовательностью данного белка в fasta-формате.
    • После выполнения программы entret sw:P0AFU8 -auto в директории появился файл risa_ecoli.entret c полной записью о данном белке из банка SwissProt.

  3. Некоторые способы облегчения работы в командной строке.
    • Нажимая клавиши "стрелка верх" и "стрелка вниз" можно выбирать команды, выполненные ранее.
    • Команда "history" выводит все ранее использованные команды в порядке их применения по времени.
    • Если набрать в командной строке "more" а затем после пробела - первую букву имени какого-либо файла, то после нажатия клавиши <Tab>. система сама допишет его имя, или, если файлов с одинаковым началом много, общую часть имени (после этого можно так же ставить следующую букву и нажимать <Tab>, пока имя нужного вам файла не будет введено полностью).

II. Построение и сравнение оптимального глобального и оптимального локального выравнивания 2-х последовательностей.

1. Построение полного (глобального) оптимального выравнивания с помощью программы needle пакета EMBOSS.

Белок RISA_MYCTU имеет с уже встречавшимся нам RISA_ECOLI одинаковую функцию и почти такую же длину аминокислотной последовательности, вероятно они являются гомологами. Построим для них оптимальное глобальное выравнивание. Файл ndl_auto.needle, создаваемый программой needle содержит:
########################################
1. Название использованной программы (needle).
2. Дата использования программы.
3. Параметры вызова программы (названия файлов с последовательностями, выходного файла, использованные штрафы за гэп и его удлинение.)
4. Формат выравнивания. (srspair)
5. Название отчетного файла
########################################
#==================================
1. Количество сравниваемых последовательностей, их названия.
2. Параметры выравнивания: использованная матрица (BLOSSUM62), штрафы за создание гэпа и его удлинение. (по умолчанию 10 и 0,5 соответственно)
3. Длина выравнивания, процент идентичности, процент сходства, процент гэпов, вес выравнивания.
#==================================
Далее идет само выравнивание, причем "|" означает совпадение, ":"  - близкородственную замену,  "."  - замену с отрицательным весом.
     

Задание штрафов за гэпы, отличных от заданных по умолчанию. опустив опцию -auto можно задавать штрафы за гэпы вручную. В файле ndl_more.needle использованы штрафы за создание гэпа и его удлинение 20 и 1 соответственно. Очевидно в таком выравнивании должно быть меньше гэпов, так как они штрафуются строже, чем в первом выравнивании (действительно, 20 против 28). Кроме того процент идентичности должен быть меньше, так как создание гэпов - это по сути инструмент его увеличения (действительно, 35.0 против 35.3).

2. Построение локального (частичного) оптимального выравнивания тех же последовательностей. с помощью программы water пакета EMBOSS

Получение выдачи в формате, пригодном для импорта в GeneDoc.
Опция "-aformat msf" позволяет создать файл в формате .msf, который можно читать с помощью программы GeneDoc.
Файлы в формате .msf:

3. Сравнение полученных выравниваний

  • Есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях сопоставлены разные позиции второй последовательности?


  • Да, есть. 56-ая позиция последовательности RISA_ECOLI (G) в выравнивании со штрафами по умолчанию соответствует 57-ой позиции последовательности RISA_MYCTU (G). При увеличении штрафов, (см. ndl_more.needle) гэп стоящий между 54-ой и 55-ой позицией последовательности RISA_ECOLI уменьшается, и во втором выравнивании той же 56-ой позиции RISA_ECOLI (G) будет соответствовать 56-ая позиция RISA_MYCTU (D)
    
    Со штрафами за гэпы по умолчанию:
                                v
    RISA_ECOLI        51 VTEI--NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHL     98
                         |.::  :|...: |:|.|||..:|||:|:.|..||:||||.....:|||:
    RISA_MYCTU        50 VVDVLPDGQFTA-DVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHI     98
    
    
    С удвоенными штрафами за гэпы:
                               v
    RISA_ECOLI        51 VTEI-NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHLM     99
                         |.:: .....:.|:|.|||..:|||:|:.|..||:||||.....:|||::
    RISA_MYCTU        50 VVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHIV     99
  • есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях сопоставлены разные позиции второй последовательности?


  • Да, есть. 60-ая позиция последовательности RISA_ECOLI (S) в выравнивании со штрафами по умолчанию соответствует 61-ой позиции последовательности RISA_MYCTU (A). При увеличении штрафов, (см. wtr_more.water) во втором выравнивании ей будет соответствовать 60-ая позиция RISA_MYCTU (T)
    
    Со штрафами за гэпы по умолчанию:
                                    v
    RISA_ECOLI        51 VTEI--NGNHVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHL     98
                         |.::  :|...: |:|.|||..:|||:|:.|..||:||||.....:|||:
    RISA_MYCTU        50 VVDVLPDGQFTA-DVMAETLNRSNLGELRPGSRVNLERAAALGSRLGGHI     98
    
    
    С удвоенными штрафами за гэпы:
                                               v
    RISA_ECOLI        39 GASVAHNGCCLTVTEI-NGNHVSFDLMKETLRITNLGDLKVGDWVNVERA     87
                         |.|:|.||.||||.:: .....:.|:|.|||..:|||:|:.|..||:|||
    RISA_MYCTU        38 GDSIAVNGVCLTVVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLERA     87
    
  • Есть ли хотя бы один пример того, что в одном глобальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?


  • Да, есть.129-ая позиция последовательности RISA_ECOLI (Q) в выравнивании со штрафами по умолчанию соответствует 128-ой позиции последовательности RISA_MYCTU (S). При увеличении штрафов, (см. ndl_more.needle) во втором выравнивании ей будет соответствовать гэп, стоящий между 128-ой и 129-ой позициями RISA_MYCTU. Этот пример замечателен тем, что второе выравнивание - с большими штрафами за гэпы чем первое, то есть вероятность появления в нем дополнительного гэпа очень мала.
    
    Со штрафами за гэпы по умолчанию:
                                                          v
    RISA_ECOLI        99 MSGHIMTTAEVAKILTSENNRQIWFKVQ---DSQLMKYILYKGFIGIDGI    145
                         :.||:..|.|:.....||:    |..|:   .:.:.:|::.||.|.:|||
    RISA_MYCTU        99 VQGHVDATGEIVARCPSEH----WEVVRIEMPASVARYVVEKGSITVDGI    144
    
    
    С удвоенными штрафами за гэпы:
                                                      v
    RISA_ECOLI       100 SGHIMTTAEVAKILTSENNRQIWFKVQDSQLMKYILYKGFIGIDGISLTV    149
                         .||:..|.|:.....||:...:..::..| :.:|::.||.|.:|||||||
    RISA_MYCTU       100 QGHVDATGEIVARCPSEHWEVVRIEMPAS-VARYVVEKGSITVDGISLTV    148
    
  • есть ли хотя бы один пример того, что в одном локальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?


  • Да, есть. 152-ая позиция последовательности RISA_ECOLI (V) в выравнивании со штрафами по умолчанию соответствует 154-ой позиции последовательности RISA_MYCTU (E). При уменьшении штрафов, (см. wtr_less.water) во втором выравнивании ей будет соответствовать гэп, стоящий между 154-ой и 155-ой позициями RISA_MYCTU.
    
    Со штрафами за гэпы по умолчанию:
                                  v
    RISA_ECOLI       146 SLTV---GEVTPTRFCVHLIPETLERTTLGKKKLGARVNIEIDPQTQAVV    192
                         ||||   |......|.|.|||.|.|.||||...:|.|||:|:|    .|.
    RISA_MYCTU       145 SLTVSGLGAEQRDWFEVSLIPTTRELTTLGSAAVGTRVNLEVD----VVA    190
    
    
    С уменьшенными вдвое штрафами:
                                                    v
    RISA_ECOLI       129 QLMKYILYKGFIGIDGISLTV---G-EVTPTR--FCVHLIPETLERTTLG    172
                         .:.:|::.||.|.:|||||||   | |   .|  |.|.|||.|.|.||||
    RISA_MYCTU       128 SVARYVVEKGSITVDGISLTVSGLGAE---QRDWFEVSLIPTTRELTTLG    174
    
  • соответствуют ли оптимальные локальные выравнивания, построенными с использованием разных параметров, одним и тем же фрагментам последовательностей?


  • Нет, не соответствуют. например выравнивание с уменьшенными штрафами построено для фрагментов: RISA_ECOLI - с 1 по 210 а.о., RISA_MYCTU - с 1 по 201 а.о. (см. wtr_less.water)
    А выравнивание с увеличенными штрафами: RISA_ECOLI - с 39 по185 а.о., RISA_MYCTU - с 38 по 187 а.о.(см. wtr_more.water)

  • совпадают ли локальные выравнивания с соответствующими частями глобальных выравниваний?


  • В моем случае это так, потому что данные белки имеют сходную структуру (включают в себя 2 повтора). Однако в общем случае это не всегда так. Например возьмем 2 белка: первый имеет вид: "домен №1 - домен №2", второй - те же домены, но в обратном порядке: "домен №2 - домен №1". Оптимальное локальное выравнивание покажет нам, например, родство первого домена первого белка и второго домена второго белка. А глобальное выравнивание - нечто бессмысленное с биологической точки зрения. Очевидно, такое локальное выравнивание не будет совпадать с соответствующей частью глобального.

Дополнительные задания.

I. Построение карты локального сходства.

Более-менее четкая диагональная линия наводит нас на мысль, что эти белки имеют общее происхождение. Линии по разным сторонам от нее, я думаю, соответствуют сравнению двух повторов, их которых состоят данные белки.

II. Получение нескольких субоптимальных локальных выравниваний заданных последовательностей с помощью программы matcher пакета EMBOSS.

файл risa_ecoli_risa_myctu.matcher содержит 10 субоптимальных выравниваний. Наиболее интересные из них, на мой взгляд:

#=======================================
#
# Aligned_sequences: 2
# 1: RISA_ECOLI
# 2: RISA_MYCTU
# Matrix: EBLOSUM62
# Gap_penalty: 14
# Extend_penalty: 4
#
# Length: 45
# Identity:      19/45 (42.2%)
# Similarity:    31/45 (68.9%)
# Gaps:           1/45 ( 2.2%)
# Score: 86
# 
#
#=======================================

     140       150        160       170       180   
RISA_E IGIDGISLTVGEVTPT-RFCVHLIPETLERTTLGKKKLGARVNIE
       : ..:. ::: .: :  .:   .. ::: :. ::. . :.:::.:
RISA_M IAVNGVCLTVVDVLPDGQFTADVMAETLNRSNLGELRPGSRVNLE
               50        60        70        80     

#=======================================
#
# Aligned_sequences: 2
# 1: RISA_ECOLI
# 2: RISA_MYCTU
# Matrix: EBLOSUM62
# Gap_penalty: 14
# Extend_penalty: 4
#
# Length: 85
# Identity:      21/85 (24.7%)
# Similarity:    38/85 (44.7%)
# Gaps:           3/85 ( 3.5%)
# Score: 55
# 
#
#=======================================

            10        20        30        40        50   
RISA_E GIVQGTAKLVSIDEKPNFRTHVVELPDHMLDGLETGASVAHNGCCLTVTE
       : :  : ..:.     ..    .:.:  .   .    :.  .:  :::. 
RISA_M GHVDATGEIVARCPSEHWEVVRIEMPASVARYVVEKGSITVDGISLTVSG
              110       120       130       140       150

            60           70        80     
RISA_E INGNHVSF---DLMKETLRITNLGDLKVGDWVNVE
       .      .    :.  :  .: ::   ::  ::.:
RISA_M LGAEQRDWFEVSLIPTTRELTTLGSAAVGTRVNLE
              160       170       180     
По данным записи UniProt в белке RISA_ECOLI с 1 по 97 и с 98 по 195 позицию расположены лумазин-связывающие домены. В белке RISA_MYCTU они расположены на позициях с 1 по 97 и с 98 по 197. Можно заметить, что первое выравнивание относится ко второму домену RISA_ECOLI и первому домену RISA_MYCTU . А второе - наоборот (первый домен RISA_ECOLI со вторым доменом RISA_MYCTU).

© Сеферян Мелик, 2008 seferyan_m@mail.ru