Protocol 9

Занятие 9.

1. Работа с программой getorf пакета EMBOSS

Создайте в своей директории файл с записью D89965 банка EMBL.

Entret embl:D89965 -auto

Выполните команду

tfm getorf > help

После изучения файла help запускаем программу

getorf –find 1 –table 11

Finds and extracts open reading frames (ORFs)

Input nucleotide sequence(s): d89965.entret

protein output sequence(s) [d89965.orf]:

-find задает тип поиска (1 - Translation of regions between START and STOP codons)

-table – таблица генетического кода (11 - Bacterial)

-minsize – наименьшая длина ORF, по умолчанию 30, этот пункт опускаем в командной строке.

Определим, какая из найденных открытых рамок соответствует приведённой в записи CDS.

>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.

MVFWLHHVTVTGDDKRCSFIRDCQQCFKFAQHAIGTPVFCQLNGGFDQMALMHFQFTFKQ

FEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHMAVTAYAYYSCHE

LTPWLRIQSTNPVQKYGA

В записи EMBL приведена синяя последовательность.

Определим также, какая из рамок соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL. Ссылка –

/db_xref="UniProtKB/Swiss-Prot:P0A7B8"

Последовательность белка

>uniprot|P0A7B8|HSLV_ECOLI ATP-dependent protease hslV;

MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL

FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL

IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA

Синяя часть совпадает с одним из найденных ORF:

>D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.

MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL

FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL

IAIGS

Бросается в глаза несоответствие. Ладно, что мы ищем по геному крысы, используя код бактерий. Но! В аннотации генома организм Rattus norvegicus и ген называется «Rat Stomach Serotonin receptor-related gene», а соответствующий белок в swiss-prot – из E.coli и называется Heat shock protein hslV. Все ссылки на банк PDB тоже указывают на E.coli.

2. Поиск некодирующих последовательностей программой BLASTN

В имеется файл trna_ecoli.fasta лежат последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Наша задача — определить, сколько гомологов каждой из тРНК находит программа BLASTN в трёх геномах (см. предыдущее занятие).

Этапы работы.

запустите программу blastn, указав в качестве последовательностей для поиска файл trna_ecoli.fasta, в качестве банка — все три генома и установив табличный формат выдачи (опция "-m 8" или "-m 9" программы blastall).

blastall –blastn –d pm_st_xc –i trna_ecoli.fasta –o trna_blast.txt –m 8

Просмотрим выходной файл. Заметим, что если последовательность asnT нашлась 16 раз, то в выходном файле это слово встретится на 1 раз больше, так как у таблицы с этими находками будет соответствующий заголовок.

Придумайте, как (для данной последовательности из trna_ecoli.fasta) запустить grep так, чтобы на выходе получилось число — количество находок именно для данной последовательности.

grep "asnT" trna_blast.txt –c

31

“asnT” – выбранная последовательность,

Trna_blast.txt – файл для поиска,

-c показывать только число находок.

Создайте колонку из названий входных последовательностей командой

grep ">" trna_ecoli.fasta > names

Информацию из файла names импортируем в Excel.

Создадим скрипт из команд, выдающих число находок для каждой последовательности. Файл find.scr написан в редакторе Far, сохранен в соответствующем формате.

chmod +x find.scr – делаем файл исполняемым

./find.scr – запускаем скрипт

Получаем файл result.txt со столбцом цифр. Импортируем этот результат в Exel и удаляем или стираем содержимое файла (так как следующий скрипт запишет новые данные после уже имеющихся)

Повторим поиск, на этот раз указав порог на E-value, равный 0.001.

blastall –blastn –d pm_st_xc –i trna_ecoli.fasta –o trna_blast.txt –m 8 –e 0.001

./find.scr

Добавляем в отчётную таблицу соответствующий столбец.

Получили файл trna.xls

3. Поиск некодирующих последовательностей программой megablast

Используем вместо BLASTN сначала обычный megablast

megablast –d pm_st_xc –i trna_ecoli.fasta -o megablast.txt -m 8

Затем разрывный ("discontigous") megablast.

megablast –d pm_st_xc –i trna_ecoli.fasta -o discontig.txt -m 8 -t 21 -W 12 -N 2

-d база данных

-i входной файл

-o результат

-m формат вывода 9 – в виде таблицы

-t Discontiguous word template length (по умолчанию 0, можно поставить 16,18, или 21)

-W размер слова (для discontigious 11 или 12)

-N Discontiguous template type: coding (0), non-coding (1), or both (2)

Используем скрипт find.scr переделанный для файлов megablast.txt и discontig.txt , чтобы импортировать полученные данные в Excel

4. Минимальный анализ результатов

В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST выберите какую-нибудь пару из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка.

Находка в выдаче программы BLAST

Query id alaV
Subject id, AE012322
% identity, 90.79
Alignment length 76
Mismatches 7
Gap openings 0
Q. start 1
Q. end 76
S. start 526
S. end 601
E-value 1e-20
Bit score 95.6

Последовательность из файла trna_ecoli.fasta

>alaV

ggggctatagctcagctgggagagcgcctgctttgcacgcaggaggtctg

cggttcgatcccgcatagctccacca

Эта находка, находится программой BLASTN и не находится программой megablast.

Соответствующая запись банка EMBL:

AC AE012322; AE008922;

DE Xanthomonas campestris pv. campestris str. ATCC 33913, section 230 of 460

DE of the complete genome.

OS Xanthomonas campestris pv. campestris str. ATCC 33913

Аннотация нужного фрагмента

FT tRNA 526..601

FT /gene="XCC2148"

FT /product="tRNA-Ala"

FT /note="Found by tRNAscan"

Получим нужный документ EMBL и вырежем из него соответствующий фрагмент:

entret embl:AE012322 -auto

seqret -sask

Reads and writes (returns) sequences

Input (gapped) sequence(s): ae012322.entret

Begin at position [start]: 526

End at position [end]: 601

Reverse strand [N]:

output sequence(s) [ae012322.fasta]:

Выделите исходную последовательность также в отдельный файл alaV.fasta.

needle alaV.fasta ae012322.fasta alignment.needle

Needleman-Wunsch global alignment.

Gap opening penalty [10.0]:

Gap extension penalty [0.5]:

Получим выравнивание:

# Length: 76

# Identity: 69/76 (90.8%)

# Similarity: 69/76 (90.8%)

# Gaps: 0/76 ( 0.0%)

# Score: 317.0

(*) Поиск некодирующих последовательностей программой Fasta

Проделайте работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35. Для этого придётся, во-первых, слить вместе три файла с геномами (поскольку FastA работает с банками, находящимися в обычных fasta-файлах);

во-вторых, вырезать каждую из последовательностей из файла trna_ecoli.fasta в отдельный файл;

в-третьих, научиться запускать fasta35,

четвёртых, придумать запуск grep на выходном файле программы fasta35, выдающий количество находок.