Учебный сайт Шиндяпиной А.В.
Работа в командной строке Linux. Программы выравнивания последовательностей пакета EMBOSS.
I.Работа в командной строке Linux.
Было предложено для ознакомления с командной строкой Linux выполнить несколько команд, ну и проверить,
что получилось. Для этого использовалась программа Putty. Результаты трудов описаны ниже.
1. Смена активной директории и просмотр содержимого директорий.
- при выполнении команды "ls" putty показывает все поддиректории и файлы активной директории.
- команда "ls .." делает активной предыдущую директорию и показывает её содержимое
- при введении "cd", а затем "ls .." несколько раз (пока картина не перестанет меняться), поднимаешься
"выше" по дереву директорий.
- ввела команды "cd" и "pwd". Команда выдала путь к моей папке (/home/students/y08/student08fbb).
2. Создание и просмотр файлов.
Все команды вводила при активной директории Practice5.
- при введении "seqret sw:p0aa04 -auto" в активной директории создается новый файл формата fasta с записью
аминокислотной последовательности моего белка pthp_ecoli, чьим кодом доступа является p0aa04. После команды
"more pthp_ecoli.fasta" показывается содержимое файла.
- при введении команды "entret sw:p0aa04 -auto" тоже появился файл, но формата entret. Файл содержит информацию о моем
белке, подобную той, что в записях на сайте Uniprot. (см. Блок 1)
II. Построение и сравнение оптимальных глобальных и оптимальных локальных выравниваний 2-х последовательностей.
1. Построение полного (глобального) оптимального выравнивания с помощью программы needle пакета EMBOSS:
- создав файл с помощью программы seqret с последовательностью родственного моему белка (pthp_chltr), выполнила следующие команды:
"needle pthp_ecoli.fasta pthp_chltr.fasta glob.needle -auto" - в результате получила файл glob.needle с выравниванием и расчетами веса выравнивания и др.
двух последовательностей.
"needle pthp_ecoli.fasta pthp_chltr.fasta glob2.needle", после введения этой команды задала штраф за открытие гэпа 20 (вместо 10) и
штраф за продолжение гэпа 1 (вместо 0.5). После изменения параметров получила файл с выравниванием, отличающимся от предыдущего;
- с помощью команды "needle pthp_ecoli.fasta pthp_chltr.fasta glob.msf -auto -aformat msf" получила файл, который можно открыть в GeneDoc
glob1.msf и , задав параметры 20.0 и 1.0, получила файл glob2.msf .
2.Построение локального (частичного) оптимального выравнивания с помощью программы water пакета EMBOSS
- проделала аналогичные действия, только заменяя в командах needle на water + задала параметры штрафов в два раза меньшие
автоматических. Получила файлы под названиями loc1, loc2, loc3, а также два файла для работы в GeneDoc: loc.msf (параметры [10.0][0.5],[20.0][1.0]) и loc1.msf ([5.0][0.25]).
3. Сравнение полученных выравниваний
- есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях
сопоставлены разные позиции второй последовательности?
Да, есть несколько примеров. Например для позиций 26-27 последовательности белка pthp_chltr. Ниже на изображениях:
слева показана часть с 26 и 27 а.о. глобального выравнивания с автоматически заданными параметрами, справа часть выравнивания с параметрами
[20.0] [1.0].
- есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях
сопоставлены разные позиции второй последовательности?
Таких примеров нет.
- есть ли хотя бы один пример того, что в одном глобальном выравнивании какой-либо позиции первой последовательности сопоставлена
некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
Да, т.к. есть гэпы. Как пример, позиции 28-29. На изображениях ниже: слева - выравнивание с автоматически заданными параметрами, справа - с
параметрами [20.0],[1.0].
- есть ли хотя бы один пример того, что в одном локальном выравнивании какой-либо позиции первой последовательности сопоставлена
некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?
Таких примеров нет.
- соответствуют ли оптимальные локальные выравнивания, построенными с использованием разных параметров, одним и тем же
фрагментам последовательностей?
Нет. Соответствуют одним и тем же фрагментам выравнивания с автоматически заданными параметрами [10.0],[0,5] и параметрами [20.0],[1.0]. Выравнивание с параметрами
[5.0],[0.25] построено для большего числа а.о. и имеет два гэпа. Это видно на изображениях.
Из полученных msf-файлов видно, что в локальных выравниваниях меньше гэпов(например, присутствующего в начале глобального выравнивания гэпа нет в локальных выравниваниях), в моих двух из трех локальных выравниваниях с более жесткими параметрами
их вообще нет. Локальные выравнивания меньшей длины, что очевидно из его предназначения, ведь в локальном выравниваются не последовательности полностью, а наиболее гомологичные их участки.
Дополнительные задания
1. Построение карты локального сходства последовательностей белков pthp_ecoli и pthp_chltr с помощью программы dotmatcher пакета EMBOSS.
С помощью команды
dotmatcher pthp_ecoli.fasta pthp_chltr.fasta -graph cps -options
и далее задав параметры для размера окна - 15 (соответсвенно задав и длину участков отрезков последовательности, которые выравниваются) и параметр ограничения
веса последовательностей - 23 (насколько я поняла из информации в интернете это довольно стандартные параметры).
В результатев в активной директории Practice5 программой был сохранен файл dotmatcher.ps , в котором и была карта
локального сходства. Не хитрым образом была получена следующее изображение.
Видно, что для заданных параметров было найдено 3 выравнивания, при этом два из них перекрываются. а третье, видео было
построено с помощью сильного смещения последовательности pthp_ecoli вправо относительно pthp_chltr. Очевидно, лучше использовать в дальнейшем данные по первым двум локальным выравниваниям.
2. получение субоптимельных локальных выравниваний последовательности pthp_ecoli и pthr_chltr.
С помощью программы matcher пакета EMBOSS было получено заданное количество сублокальных выравниваний. После введения команды
matcher pthp_ecoli.fasta pthp_chltr.fasta sybloc.matcher -options
и введения параметров о количестве выравниваний - 7, штрафов за гэпы и каждый пробел - 10 и 1 соотвестсвенно, получила файл
sybloc.matcher . Из 7 выравниваний выбрала 2 наиболее лучших и не совпадающих с уже приведенными
выше локальными.
# Aligned_sequences: 2
# 1: PTHP_ECOLI
# 2: PTHP_CHLTR
# Matrix: EBLOSUM62
# Gap_penalty: 10
# Extend_penalty: 1
#
# Length: 40
# Identity: 10/40 (25.0%)
# Similarity: 16/40 (40.0%)
# Gaps: 1/40 ( 2.5%)
# Score: 31
#
#
#=======================================
10 20 30 40
PTHP_E EVTIT-APNGLHTRPAAQFVKEAKGFTSEITVTSNGKSAS
: :.: .. : . . :. : : :::
PTHP_C EATLTYLGKTVNARSVMSILMLGASYNGEVAVHIKGPSAS
60 70 80 90
#=======================================
#
# Aligned_sequences: 2
# 1: PTHP_ECOLI
# 2: PTHP_CHLTR
# Matrix: EBLOSUM62
# Gap_penalty: 10
# Extend_penalty: 1
#
# Length: 22
# Identity: 8/22 (36.4%)
# Similarity: 14/22 (63.6%)
# Gaps: 1/22 ( 4.5%)
# Score: 30
#
#
#=======================================
60 70
PTHP_E GTVVTISAEGEDEQKAVEHLVK
::.: . :::. . . .: :
PTHP_C GTIVKLF-EGEECEATLTYLGK
50 60
#=======================================
©, "ООО Шиндяпина 2008"