На главную


Пакет BLAST(продолжение).

1. Работа с программой getorf пакета EMBOSS.

В результате выполнения команды tfm getorf получена справка, после изучения которой были выбраны следующие параметры для выполнеия упражнения:
-table 11 => задается использование бактериального кода
-minsize 30 => длина открытых рамок считывания не более 30 нуклеотидов
-find 1 => открытая рамка задается как последовательность триплетов, начинающаяся со старт-кодона и заканчивающаяся стоп-кодоном.
Таким образом, с помощью команды

getorf -table 11 -minsize 30 -find 1 -sequence d89965.entret

получен набор трансляций открытых рамок считывания, удовлетворяющих заданным условиям (результат). Пятая рамка соответствует приведенной записи CDS, а тринадцатая соответствует записи Swiss-Prot, на которую ссылается данная запись EMBL.

2. Поиск некодирующих последовательностей программой BLASTN.

Для того чтобы определить, сколько гомологов каждой из тРНК, проаннотированной в полном геноме E.coli K12, находит программа BLASTN в трех геномах бактерий Salmonella typhimurium LT2, Pasteurella multocida и Xanthomonas campestris, была запущена программа blastn с соответствующими параметрами:

blastall -p blastn -d pm_xc_st -i trna_ecoli.fasta -o ecoli_out.txt -m 8
.
Далее для полученного файла был запущен скрипт, выдающий число находок для каждой последовательности. Аналогичные действия были проделаны с порогом на E-value 0.001. В данном случае командная строка выглядела следующим образом:

blastall -p blastn -d pm_xc_st -i trna_ecoli.fasta -o ecoli_out2.txt -m 8 -e 0.001

Результаты упражнения записаны в файле trna.xls.

3. Поиск некодирующих последовательностей программой megablast.

Для поиска с помощью программы megablast была задана следующая командная строка:

megablast -d pm_xc_st -i trna_ecoli.fasta -o megablast_out.txt -m 8

Для разрывного megablast использовались следующие параметры:
-m 8 => задается табличный формат выдачи
-D 2 => задается стандартная выдача blast
-t 18 => задается длина фрагментов тРНК, которые будут искаться в геноме бактерий
-W 11 => задается длина слов из генома бактерий, по которым ведется поиск
-N 1 => тип разрывов в тРНК, рекомендуется значение "1"
Командная строка:

megablast -d pm_xc_st -i trna_ecoli.fasta -o megablast_out2.txt -m 8 -D 2 -t 18 -W 11 -N 1

4. Минимальный анализ результатов.

Для сравнения была взята тРНК argQ и один из гомологичных ей участков в бактерии Xanthomonas campestris (выравнивание). Этой пары нет в выдачи megablast, так как эта программа ищет в геноме бактерий слова длиной 28, а таких длинных совпадений в приведенном примере нет. Ниже приведены значение полей записи EMBL, в которой проаннотирован найденный гомологичный участок:
AC   AE012275;
DE   Xanthomonas campestris pv. campestris str. ATCC 33913,  section 183 of 460
DE   of the complete genome.
OS   Xanthomonas campestris pv. campestris str. ATCC 33913
FT   tRNA            complement(79..155)
FT                   /gene="XCC1733"
FT                   /product="tRNA-Arg"
FT                   /note="Found by tRNAscan"
Гомологичный участок и исходная последовательность выровнены с помощью программы needle (результат). Основные характеристики выравнивания:
Длина: 78
Identity:      65/78 (83.3%)
Сходство:    65/78 (83.3%)
Гэпов:           2/78 ( 2.6%)
Score: 261.0
Интересно, что выравнивание сделанное с помощью needle несколько длиннее выравнивания порожденного blastn. Вероятно, это произошло, потому что программа blastn не допускает наличие одиночных гэпов из-за возможного сдвига рамки считывания, а needle допускает. При этом в данном случае в выравнивании needle через три остатка после гэпа в одной последовательности стоит гэп в другой, т.е. сдвига не происходит. Таким образом, можно сказать, что выравнивание с помощью программы needle в данном случае является более удачным.
©Десислава Митева, 2007