Учебный сайт
Главная Семестры Проекты Обо мне

Пакет EMBOSS для выравнивания последовательностей удобно использовать в системе LINUX, зайти в которую можно при помощи программы Putty. Для удобства работы перед тем, как приступить к выравниванию, я изучила действие нескольких команд в командной строке LINUX. Вот они и их действие:
  • Команда "ls". Эта команда показывает содержимое активной директории
  • Команда "ls ..". Эта команда показывает содержимое наддиректории активной директории
  • Команда "cd". Эта команда возвращает (делает активной) в домашнюю директорию (пользователя, под которым я зарегистрировалась при входе в систему LINUX)
  • Команда "cd ..". Эта команда делает активной наддиректорию директории, которая активна в данный момент
  • Команда "cd X" (где X - название одной из поддиректорий активной директории). Эта команда делает активной поддиректорию X
  • Команда "pwd". Эта команда отображает полный путь к текущей директории
  • Команда "more X". Эта команда показывает содержимое файла X, при этом его можно пролистывать построчно клавишей enter или постранично клавишей пробел
  • Команда "history". Эта команда показывает список всех команд, выполненных мной в течение сеанса работы в системе.

  • Перед построением выравниваний я также познакомилась с программами пакета Emboss, создающими файлы.
  • Программа seqret: создает файл с расширением fasta и именем - названием белка с кодом доступа P0ABD8
  • Программа entret: создает файл с расширением entret, именем - названием белка, содержимым - данными базы UniProt

Построение глобального выравнивания двух последовательностей.
Глобальное выравнивание - выравнивание последовательностей с акцентом на общее сходство структур, а не на сходство отдельных, локальных участков. Его можно построить при помощи программы needle из пакета EMBOSS. С помощью этой программы было построено выравнивание двух последовательностей: белка BCCP_ECOLI (посмотреть последовательность) и белка BCCP_CHLPN (посмотреть последовательность), оно сохранено в файле nd.needle, а также в файле nd.msf. Помимо этого было построено выравнивание этих же последовательностей, но в программе needle были изменены параметры: были увеличены вдвое штрафы за открытие гэпа и за его продление, это выравнивание сохранено в файле nd1.needle.
Выравнивание nd.needle:
		 Штраф за гэпы: 	10.0
		 Длина: 		169
		 Идентичность:      	49/169 (29.0%)
		 Сходство:    		83/169 (49.1%)
		 Гэпы:          	15/169 ( 8.9%)
		 Вес: 			203.0

		 BCCP_ECOLI         1 MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAAS--FPVMQQ--     46
		                      ||:::|:||:..:..:|:....|......:.:.|.....:  .||...  
		 BCCP_CHLPN         1 MDLKQIEKLMIAMGRNGMKRFAIKREGLELELERDTREGNRQEPVFYDSR     50

		 BCCP_ECOLI        47 -----AYAAPMMQQPAQSNAAAPATVPSMEAPAAAEISGHIVRSPMVGTF     91
		                           :...|:...|.:.......|..|..:...:  ||..:.||:||||
		 BCCP_CHLPN        51 LFSGFSQERPIPTDPKKDTIKETTTENSETSTTTS--SGDFISSPLVGTF     98

		 BCCP_ECOLI        92 YRTPSPDAKAFIEVGQKVNVGDTLCIVEAMKMMNQIEADKSGTVKAILVE    141
		                      |.:|:||:.:|::.|..|:....:|||||||:||:::|..||.|..:|:.
		 BCCP_CHLPN        99 YGSPAPDSPSFVKPGDIVSEDTIVCIVEAMKVMNEVKAGMSGRVLEVLIT    148

		 BCCP_ECOLI       142 SGQPVEFDEPLVVIE----    156
		                      :|.||:|...|..|.    
		 BCCP_CHLPN       149 NGDPVQFGSKLFRIAKDAS    167
		 
Выравнивание nd1.needle:
                 Штраф за гэпы: 	20.0
		 Длина: 		167
		 Идентичность:      	46/167 (27.5%)
		 Сходство:    		80/167 (47.9%)
		 Гэпы:          	11/167 ( 6.6%)
		 Вес: 			180.0

		 BCCP_ECOLI         1 MDIRKIKKLIELVEESGISE-------LEISEGEESVRISRAAPAASFPV     43
		                      ||:::|:||:..:..:|:..       ||:....::...:|..|......
		 BCCP_CHLPN         1 MDLKQIEKLMIAMGRNGMKRFAIKREGLELELERDTREGNRQEPVFYDSR     50

		 BCCP_ECOLI        44 MQQAYAAPMMQQPAQSNAAAPATVPSMEAPAAAEISGHIVRSPMVGTFYR     93
		                      :...::................|.......:....||..:.||:|||||.
		 BCCP_CHLPN        51 LFSGFSQERPIPTDPKKDTIKETTTENSETSTTTSSGDFISSPLVGTFYG    100

		 BCCP_ECOLI        94 TPSPDAKAFIEVGQKVNVGDTLCIVEAMKMMNQIEADKSGTVKAILVESG    143
		                      :|:||:.:|::.|..|:....:|||||||:||:::|..||.|..:|:.:|
		 BCCP_CHLPN       101 SPAPDSPSFVKPGDIVSEDTIVCIVEAMKVMNEVKAGMSGRVLEVLITNG    150

		 BCCP_ECOLI       144 QPVEFDEPLVVIE----    156
		                      .||:|...|..|.    
		 BCCP_CHLPN       151 DPVQFGSKLFRIAKDAS    167
                 

Выравнивания отличаются друг от друга: выравнивание с завышенными требованиями и штрафами содержит меньше гэпов внутри, однако его качественные показатели хуже: меньше идентичность, сходство и вес. Следовательно, при построении выравнивания нужно выбирать оптимальный вариант, при котором вес и сходство достаточно велики, а число различных гэпов внутри последовательностей минимально.

Построение локального выравнивания.
Локальное выравнивание - выравнивание, акцент в котором делается на сходство отдельных участков последовательностей, общее сходство последовательностей не так важно. Его можно построить при помощи программы water из пакета EMBOSS. Были построены локальные выравнивания тех же последовательностей, что и в предыдущем пункте: одно с исходными параметрами (штрафами за гэпы и т.п.) было сохранено в файлы wtr.water и wtr.msf, а другое с параметрами вдвое меньшими, чем исходные, сохранено в файлах wtr1.water и wtr1.msf и вдвое большими, чем исходное, сохраненное в файлах wtr2.water и wtr2.msf.
Выравнивание wtr.water:
		 Штраф за гэпы: 	10.0
		 Длина: 		161
		 Идентичность:      	48/161 (29.8%)
		 Сходство:    		82/161 (50.9%)
		 Гэпы:          	11/161 ( 6.8%)
		 Вес: 			204.0 

		 BCCP_ECOLI         1 MDIRKIKKLIELVEESGISELEISEGEESVRISRAAPAAS--FPVMQQ--     46
		                      ||:::|:||:..:..:|:....|......:.:.|.....:  .||...  
		 BCCP_CHLPN         1 MDLKQIEKLMIAMGRNGMKRFAIKREGLELELERDTREGNRQEPVFYDSR     50

		 BCCP_ECOLI        47 -----AYAAPMMQQPAQSNAAAPATVPSMEAPAAAEISGHIVRSPMVGTF     91
		                           :...|:...|.:.......|..|..:...:  ||..:.||:||||
		 BCCP_CHLPN        51 LFSGFSQERPIPTDPKKDTIKETTTENSETSTTTS--SGDFISSPLVGTF     98

		 BCCP_ECOLI        92 YRTPSPDAKAFIEVGQKVNVGDTLCIVEAMKMMNQIEADKSGTVKAILVE    141
		                      |.:|:||:.:|::.|..|:....:|||||||:||:::|..||.|..:|:.
		 BCCP_CHLPN        99 YGSPAPDSPSFVKPGDIVSEDTIVCIVEAMKVMNEVKAGMSGRVLEVLIT    148

		 BCCP_ECOLI       142 SGQPVEFDEPL    152
		                      :|.||:|...|
		 BCCP_CHLPN       149 NGDPVQFGSKL    159
		 
Выравнивание wtr1.water:
		 Штраф за гэпы: 	5.0
		 Длина: 		180
		 Идентичность:      	58/180 (32.2%)
		 Сходство:    		93/180 (51.7%)
		 Гэпы:          	49/180 (27.2%)
		 Вес: 			253.25

		 BCCP_ECOLI         1 MDIRKIKKL-IEL---------VEESGISELEIS----EG--EESV----     30
		                      ||:::|:|| |.:         ::..|: |||:.    ||  :|.|    
		 BCCP_CHLPN         1 MDLKQIEKLMIAMGRNGMKRFAIKREGL-ELELERDTREGNRQEPVFYDS     49

		 BCCP_ECOLI        31 RI----SRAAPAASFPVMQQAYAAP---MMQQPAQSNAAAPATVPSMEAP     73
		                      |:    |:..|   .|      ..|   .:::....|:.. :|..|    
		 BCCP_CHLPN        50 RLFSGFSQERP---IP------TDPKKDTIKETTTENSET-STTTS----     85

		 BCCP_ECOLI        74 AAAEISGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTL-CIVEAMK    122
		                           ||..:.||:|||||.:|:||:.:|::.|..|: .||: |||||||
		 BCCP_CHLPN        86 -----SGDFISSPLVGTFYGSPAPDSPSFVKPGDIVS-EDTIVCIVEAMK    129

		 BCCP_ECOLI       123 MMNQIEADKSGTVKAILVESGQPVEFDEPL    152
		                      :||:::|..||.|..:|:.:|.||:|...|
		 BCCP_CHLPN       130 VMNEVKAGMSGRVLEVLITNGDPVQFGSKL    159
		 

Выравнивание wtr2.water
		 Штраф за гэпы: 	20.0
		 Длина: 		74
		 Идентичность:      	34/74 (45.9%)
		 Сходство:   		52/74 (70.3%)
		 Гэпы:           	0/74 ( 0.0%)
		 Вес: 			188.0

		 BCCP_ECOLI        79 SGHIVRSPMVGTFYRTPSPDAKAFIEVGQKVNVGDTLCIVEAMKMMNQIE    128
		                      ||..:.||:|||||.:|:||:.:|::.|..|:....:|||||||:||:::
		 BCCP_CHLPN        86 SGDFISSPLVGTFYGSPAPDSPSFVKPGDIVSEDTIVCIVEAMKVMNEVK    135

		 BCCP_ECOLI       129 ADKSGTVKAILVESGQPVEFDEPL    152
		                      |..||.|..:|:.:|.||:|...|
		 BCCP_CHLPN       136 AGMSGRVLEVLITNGDPVQFGSKL    159
		 
Выравнивания оказались разными. Как и при глобальном выравнивании, повышенные требования (штрафы и т.п.) привели к ухудшению качественных характеристик выравнивания. Однако, wtr1.water с большим весом, сходством и идентичностью, но частым чередованием гэпов с короткими участками последовательности выглядит гораздо менее надежно, чем wtr.water с меньшим весом.
Тем не менее, такое правило не всегда действует для локального выравнивания. Выравнивание wtr2.water обладает гораздо более хорошими показателями идентичности, сходства и процента гэпов (здесь он равен 0), чем в выравниваниях с более мягко заданными параметрами. Это произошло потому, что более строгие условия на гэпы привели к тому, что для выравнивания были выбраны меньшие участки из последовательностей с большим сходством.

Сравнение выравниваний
  • Есть пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях nd и nd1 сопоставлены разные позиции второй последовательности: 28 позиция в BCCP_CHLPN - остаток L - ей соотвествует позиция 28 (E) в BCCP_ECOLI в nd и 21 позиция (L) из BCCP_ECOLI в nd1. Это происходит вследствие того, что последовательности разбиты гэпами на участки по-разному в разных выравниваниях из-за изменившихся параметров.
  • Есть пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях wtr и wtr1 сопоставлены разные позиции второй последовательности: 11 позиции в BCCP_CHLPN (I) соответствует в BCCP_ECOLI позиция 11 (E) из выравнивания wtr и позиция 10 (I) из выравнивания wtr1.
  • Есть пример того, что в глобальном выравнивании nd в позиции 41 против последовательности BCCP_CHLPN стоит пропуск в BCCP_ECOLI, а в выравнивании nd1 напротив этой позиции стоит остаток (R).
  • Есть пример того, что в локальном выравнивании wtr1 позиции 10 в последовательности BCCP_CHLPN (M) соответствует пропуск в последовательности BCCP_ECOLI, а в выравнивании wtr этой позиции соответствует остаток I.
  • Оптимальные локальные выравнивания, построенные с использованием разных параметров, соответствуют одним и тем же фрагментам последовательностей в случае выравниваний wtr и wtr1. Выравнивание wtr2 охватывает меньшие участки последовательностей, чем 2 предыдущих.
  • Локальное выравнивания wtr совпадает с участком глобального выравнивания nd; локальное выравнивание wtr2 совпадает с соотвестствующими частями глобальных выравниваний nd и nd1. Выравнивание wtr1 с частями глобальных выравниваний не совпадает
Дополнительное задание: построение субоптимальных локальных выравниваний
При помощи программы Matcher пакета EMBOSS было построено 10 субоптимальных выравниваний, их можно посмотреть здесь. Среди них оказалось 2 выравнивания, совпадающих с участками оптимальных выравниваний.
Здесь приведены выравнивания с наибольшим весом, но отличные от оптимальных выравниваний:
		                 30        40        50       
		 BCCP_ECOLI SEGEESVRISRAAPAASFPVMQQAYAAPMMQQPA
		            .:  :.   . .    : :..   : .:    :.
		 BCCP_CHLPN TENSETSTTTSSGDFISSPLVGTFYGSPAPDSPS
		                80        90       100        
	
		                   140    
		 BCCP_ECOLI KSGTVKAILVESGQ
		            :  :.:    :. .
		 BCCP_CHLPN KKDTIKETTTENSE
		               70         
		 
		          140       150      
		 BCCP_ECOLI VESGQPVEFDEPLVVIE
		            :. :  :  :  . ..:
		 BCCP_CHLPN VKPGDIVSEDTIVCIVE
		          110       120      

		                150  
		 BCCP_ECOLI QPVEFDEPL
		            .:: .:  :
		 BCCP_CHLPN EPVFYDSRL
		                  50 

		             20        30 
		 BCCP_ECOLI ISELEISEGEESVR
		            : .: :. :   ..
		 BCCP_CHLPN IEKLMIAMGRNGMK
		               10         
		 
Как видно на этих примерах, в субоптимальных выравниваниях, в зависимости от заданного пользователем программы matcher числа альтернативных выравниваний, приводятся все возможные варианты выравниваний последовательностей с различными весами, сопоставляются все возможные участки, хоть немного схожие по структуре. При этом в данных примерах видно, что ни в одном из выравниваний нет вставленных гэпов, а совпадения букв в колонках одиночные, часто разделенные значительными промежутками. Поэтому такое выравнивание не может быть надежным, и проводить его для поиска большого числа альтернатив нет смысла, так как чем больше выравниваний ищется, тем хуже становится их вес и остальные характеристики.

© Яшина 2009