Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

EMBOSS: пакет программ для анализа последовательностей

Команды для освоения:
(1) help'ы: wossname, tfm, опции -help -verbose 
(2) работа с последовательностями и выравниваниями: seqret, infoseq - есть в задании, infoalign  
(3) работа с аннотациями записей: featcopy, extractfeat 
(4) работа с нуклеотидными последовательностями: cusp, compseq, transeq
(5) перемешивание: shuffleseq
(6) правильное выравнивание кодирующих последовательностей: tranalign
(7) getorf - есть в задание

Упражнения

Для зачета необходимо сдать >= 5 упражнений либо устно, либо на веб-странице привести команду и описать результат.

Каждое сданное упражнение оценивается баллом.

  1. (seqret) Несколько файлов в формате fasta собрать в единый файл
  2. (seqretsplit) Один файл в формате fasta с несколькими последовательностями разделить на отдельные fasta файлы
  3. (seqret) Из файла с хромосомой в формате .gb вырезать три кодирующих последовательности по указанным координатам "от", "до", "ориентация" и сохранить в одном fasta файле
  4. (transeq) Транслировать кодирующие последовательности, лежащие в одном fasta файле, в аминокислотные, используя указанную таблицу генетического кода. Результат - в одном fasta файле.
  5. (transeq) Транслировать данную нуклеотидную последовательность в шести рамках.
  6. (seqret) Перевести выравнивание и из fasta формате в формат .msf
  7. (infoalign) Выдать в выходной поток число совпадающих букв между второй последовательностью выравнивания и всеми остальными (на выходе только имя последовательности и число)
  8. (featcopy) Перевести аннотации особенностей в записи формата .gb в табличный формат .gff
  9. (extractfeat) Из данного файла с хромосомой в формате .gb получить fasta файл с кодирующими последовательностями; (*) добавить в описание каждой последовательности функцию белка (из поля product)
  10. (shuffle) Перемешать буквы в данной нуклеотидной последовательности; (*) проверить с помощью blastn сколько "достоверных" находок (с E-value < 0.1) найдется в нуклеотидном банке данных (запустите с порогом E = 10 - по умолчанию)

  11. (cusp)Найдите частоты кодонов в данных кодирующих последовательностях
  12. (compseq) Найдите частоты динуклеотидов в данной нуклеотидной последовательности и сравните их с ожидаемыми
  13. (tranalign) Выровняйте кодирующие последовательности соответственно выравниванию белков - их продуктов

Сравните аннотации генов белков в одной хромосоме бактерии или археи с трансляциями длинных открытых рамок считывания

1. Получите список трансляций открытых рамок с помощью команды getorf пакета EMBOSS

Name               from     to ori  Length
NC_010644_15026     278    400  -1      41
NC_010644_1         365    511   1      49
NC_010644_3         523   1911   1      463
NC_010644_15025     543    734  -1      64
NC_010644_15024     712    888  -1      59
NC_010644_2         758    889   1      44
NC_010644_15023     948   1208  -1      87

Заметьте, что getorf выдает начало и конец открытой рамки на противоположной цепи в виде

NC_010644_15026 41      [400 - 278] (REVERSE SENSE) Elusimicrobium minutum Pei191 chromosome, complete genome

В итоговой таблице удобно переставить так, как в примере выше. (Я сделал это в Excel с помощью функции ЕСЛИ)

2. Получите список аннотированных генов белков

3. Сравните две таблицы Excel