Работа в Linux. Программы пакета EMBOSS

Работа в командной строке Linux

Смена активной директории и просмотр содержимого директорий

После входа на машину kodomo-count.cmm.msu.ru под своим аккаунтом команда ls показала директории и файлы моей домашней директории. Цвета для директорий и файлов различны.

Команда "ls .." показала директории аккаунтов всех студентов ФББ 2008 года поступления. Значит параметр ".." должен обозначать директорию выше данной.

Результат выполнения последовательного ввода команд "cd .." и "ls" такой же, как при выполнении предыдущей команды. Судя по всему, команда "cd .." делает переход на одну директорию выше.

При многократном повторении предыдущей команды я дошёл до момента, когда картинка перестала меняться. Похоже, я дошёл до корневой директории сервера.

Командой "cd" я вернулся в свою домашнюю директорию. Значит команда "pwd" показывает директорию, в которой я нахожусь в данный момент.

Создание и просмотр файлов

Командой "seqret sw:p09169 -auto" я получил файл. С помощью команды "more ompt_ecoli.fasta" (ompt_ecoli - идентификатор моего белка) я смог просмотреть последовательность моего белка в fasta-формате, то есть я просмотрел содержимое файла.

Командой "entret sw:p09169 -auto" был получен файл с записью о моём белке в банке Swiss-Prot.

Некоторые способы облегчения работы в командной строке

Стрелками вверх и вниз можно перемещаться между всеми ранее набранными командами. Они вписываются в командную строку.
Команда "history" выдаёт список всех предыдущих команд.


Построить и сравнить оптимальные глобальное и оптимальное локальное выравнивание 2-х последовательностей

Построить полное (глобальное) оптимальное выравнивание с помощью программы needle пакета EMBOSS

Пользуясь командой needle opmt_ecoli.fasta pgte_salty.fasta ompt_pgte.needle -auto я получил некоторый файл ompt_pgte.needle. В нём содержится выравнивание последовательностей из файлов opmt_ecoli.fasta и pgte_salty.fasta, а также информация о программе, выполнившей выравнивание, файлах с последовательностями, и различная информация о параметрах и качестве выравнивания.

При увеличении штрафов за гэпы вдвое (т.е. за начало гэпа 20, а за продолжение 1) я получил файл ompt_pgte2.needle.

Построить локальное (частичное) оптимальное выравнивание с помощью программы water пакета EMBOSS

С помощью команды "water opmt_ecoli.fasta pgte_salty.fasta ompt_pgte.water -auto" я получил файл ompt_pgte.water.
А также посредством программы water файл ompt_pgte2.water, содержищий оптимальное выравнивание с уменьшенными штрафами за гэпы в два раза по сравнению со стандартными (за начало гэпа 5, за продолжение 0.25).

Сравнить полученные выравнивания

Сперва мне показалось, что оба глобальных выравнивания и локальное выравнивание с штрафами за гэпы по умолчанию есть суть одно и то же выравнивание. Это было проверено следующим образом: я экспортировая выравнивания посредством программы GeneDoc в файл в fasta-формате, скопировал последовательности в ячейки MS Excel и проверил равенство содержимого ячеек средствами программы. Они оказались, действительно, равными. (*)

  • Есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных глобальных выравниваниях сопоставлены разные позиции второй последовательности?

    Таких примеров нет (см. выше *)

  • Есть ли хотя бы один пример того, что одной и той же позиции первой последовательности в разных локальных выравниваниях сопоставлены разные позиции второй последовательности?

    Да, есть. Например, позиция 14 первой последовательности. В одном из выравниваний это колонка I-F, в другом I-I.
    Часть выравнивания:

    OMPT_ECOLI         1 MRAKLLGIVLTTPIAISSFASTETL     25
                         |:...:.:::....:.|.:|.:...
    PGTE_SALTY         1 MKKHAIAVMMIAVFSESVYAESALF     25  
    

    OMPT_ECOLI         1 MRAKLLGIVLTTPIAI---SSFAST     22
                         |:...:.:::   ||:   |.:|  
    PGTE_SALTY         1 MKKHAIAVMM---IAVFSESVYA--     20 
    
  • Есть ли хотя бы один пример того, что в одном глобальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?

    Нет, такие примеры отсутствуют (см. выше *)

  • Есть ли хотя бы один пример того, что в одном локальном выравнивании какой-либо позиции первой последовательности сопоставлена некоторая позиция второй, а в другом выравнивании против той же позиции оказался пропуск?

    Да, например позиция 11 первой последовательности. Это видно на вставке выше.

  • Соответствуют ли оптимальные локальные выравнивания, построенные с использованием разных параметров, одним и тем же фрагментам последовательностей?

    Да, соответствуют. К тому же имеются достаточно крупные участки выравниваний, которые полностью совпадают.

  • Совпадают ли локальные выравнивания с соответствующими частями глобальных выравниваний?

    Совпадение локальных и глобальных выравниваний (в данном случае) зависит только от штрафов за гэпы. Значит для данных последовательностей алгоритмы выравнивания приводят к одному результату.


***

1) Построить карту локального сходства заданных последовательностей с помощью программы dotmatcher пакета EMBOSS

На карте локального сходства мы видим протяжённый участок вдоль главной диагонали практически без разрывов. То, что белки сходны, не вызывает сомнений.
На карте больше нет крупных участков сходства. Это наводит на мысль, что в процессе эволюции белки были образованы в основном в результате простых точечных мутаций.

2) Получить несколько субоптимальных локальных выравниваний заданных последовательностей с помощью программы matcher пакета EMBOSS. Выбрать лучшие из них, в которых фрагменты последовательностей не совпадают с выровненными фрагментами в оптимальном выравнивании.

Я получил 5 субоптимальных выравниваний с помощью команды:
matcher ompt_ecoli.fasta pgte_salty.fasta ompt_pgte.matcher -alternatives 5
Выравнивания в файле ompt_pgte.matcher

Вот лучшие из них:

              260  
OMPT_E YSVAVNAGYYVT
       :   : :::  :   Length: 12; Score: 30
PGTE_S YKAGVTAGYQET
         150        
            310      
OMPT_E ENYNFITTAGLKYT
       .::    ::: . :   Length: 14; Score: 27
PGTE_S DNYKAGVTAGYQET
           150        
     280       290       300  
OMPT_E KGNTSLYDHNNNTSDYSKNGAGI
       .: . .::.     ..     ::  Length: 23; Score: 28
PGTE_S RGGSYIYDNGRYIGNFPHGVRGI
           170       180       


© Айдарханов Руслан 2008