Kodomo

Пользователь

EMBOSS

Упражнения:

1. C помощью команды "seqret *.fasta all.fasta" объединил все файлы (1,2,3) формата fasta в один.

2. C помощью команды "seqretsplit all.fasta" разделил полученный в 1 упражнении файл на три отдельных (1, 2, 3), которым программа дала имена последовательностей.

4. Взял ген ribosomal protein S4 (fasta) мха из 7 практикума. Белок

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/transeq.png

5. Взял тот же ген ribosomal protein S4 (fasta). Результат

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/4/transeqf.png

6. Взял выравнивание с прошлого семестра (fasta). Результат

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/exer/6/align.png

Задания

Организм – архея из 1-го семестра Vulcanisaeta moutnovskia 768-28

NC_015151.1.fasta

NC_015151.1.gb

getorf -table 11 -minsize 180 -find 0 NC_015151.1.fasta output.fasta ## Получение открытых рамок, параметры: таблица генетического кода, минимальная длина открытой рамки, трансляция открытых рамок от стоп кодона до стоп кодона на выход

infoseq -only -name -length -sprotein1 -description output.fasta > output.txt ## имя рамки, длина трансляции, описание с координатами

Таблица открытых рамок: one.xlsx

Таблица анотированных генов: anot.xlsx

Сводная таблица: compl.xlsx

Что я увидел:

1) Открытых рамок гораздо больше, чем анотированных генов. Видимо, не каждая открытая рамка гарантирует ген.

2) Аннотации длиной менее 60 а.о. не имеют соответсвующих ORF-ов, так как мы искали только длинные открытые рамки (больше 180 п.н.)

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/not_long.png

Рис.1

3) ORF-ы начинаются раньше, чем соответствующие им аннотации (от двух до пары десятков нуклеотидов)

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/early.png

Рис.2

4) Перекрывание антипараллельных рамок (более 150 п.н.)

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/antipar.png

Рис.3

5) Не для всех белков были найдены открытые рамки. Возможно это из-за того, что ORF-ы были определены от стоп- до стоп-кодонов и программа не обращала внимания на старт кодоны, с которых действительно начинаются последовательности кодирующие эти белки.

http://kodomo.fbb.msu.ru/~vladislaw_aesc/term3/pr9/chrom/lone.png

Рис.4