Программы пакета BLAST для работы с нуклеотидными последовательностями

Работа с программой getorf пакета EMBOSS

Команда

 tfm getorf

Команда

 getorf -minsize 30 -table 11 -find 1 -sequence d89965.entret

Параметры :
-find = принимает параметры от 0 до 6.

          0 транслирует рамку между стоп кодонами.
          1 транслирует рамку между старт и стоп кодоном.
          2 ищет нуклеотидную  рамку между стоп кодонами.
          3 ищет нуклеотидную  рамку между старт и стоп кодоном.
          4 нуклеотидная рамка фланкирующая к старт кодону
          5 нуклеотидная рамка фланкирующая к инициаторному стоп кодону
          6 нуклеотидная рамка фланкирующая к завершающему стоп кодону

-table = принимает параметра от 0 до 23.Коды для разных групп организмов (11 - для бактерий)
-minsize = минимальная длина рамки(в нуклеотидах)

Выходной файл программы.

Из найденных открытых рамок приведённой в записи CDS соответствует 5 рамка, 13 рамка - приведенной в Swiss-Prot.

2.Поиск некодирующих последовательностей программой BLASTN.

1. Необходимо определить сколько гомологов каждой из тРНК E.coli находит программа BLASTN в геноме родственной бактерии (Pasteurella multocida)

Для этого запускаем программу blast по банку из генома бактерии (без указания порога E-value)
blastall -p blastn -d pm -i trna_ecoli.fasta -o trna.txt -m 9

2. Нужно просмотреть выходной файл и придумать, как (для данной последовательности из trna_ecoli.fasta) запустить grep так, чтобы на выходе получилось число - количество находок именно для данной последовательности.
grep "valV" trna.txt -c
Результат: 32
"valV" - выбранная последовательность,
trna.txt - файл для поиска,
-c - показывать только число находок.

3. Нужно создать колонку из названий входных последовательностей командой:
grep ">" trna_ecoli.fasta > names
Информацию из файла names импортируем в Excel.
Необходимо создать скрипт из команд, выдающих число находок для каждой последовательности.
Файл script.scr написан в редакторе Far и сохранен в соответствующем формате.
Сделаем файл исполняемым:
chmod +x script.scr
Запуск файла: ./script.scr
Получаем файл trnacount.txt со столбцом цифр. Импортируем этот результат в Exel.
Повторим поиск, на этот раз указав порог на E-value, равный 0.001.
blastall -p blastn -d pm -i trna_ecoli.fasta -o trna_ev.txt -m 9 -e 0.001
Создадим скрипт:script2.scr
Запустим его:
./script2.scr
Получаем файл trnacount2.txt со столбцом цифр. Добавляем в отчётную таблицу соответствующий столбец. Получили файл trna.xls

3.Поиск некодирующих последовательностей программой megablast.

1. Поиск гомологичных тРНК при помощи программы megablast.
megablast -d pm -i trna_ecoli.fasta -o megablast.txt -m 9

2.Поиск гомолочичных тРНК при помощи программы discontigous megablast.
megablast -d pm -i trna_ecoli.fasta -o discontig.txt -m 9 -D 2 -t 21 -W 12 -N 2

Где параметры :
-D = тип выдачи результатов (2-стандартная выдача бласт)
-t = длина последовательности (с учетом "разрывов")
-W = длина слова. Если W кратно 4, то это гарантирует нахождение наилучших совпадений для длины слова W+3. Eсли W не кратно 4, то будет рассмотрено ближайшее кратное 4 значение (по формуле 4*i+2 и 4*i). -N Discontiguous template type: coding (0), non-coding (1), or both (2)
Далее я создала скрипты для файлов megablast.txt и discontig.txt: script3.scr и script4.scr соответственно.

Отчетный Excel-файл: trna.xls

4. Анализ результатов.

В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST была выбрана пара из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка glyW - AE006138 (10908-10983). Эта пара находится программой BLASTN и не находится программой megablast.
Возможно megablsat не находит многие последовательности потому, что эта программа сравнивает две близкие и малоотличающиеся последовательности, несовпадения в которых могли возникнуть из-за ошибок при секвенировании.

Последовательность из файла trna_ecoli.fasta

>glyW
gcgggaatagctcagttggtagagcacgaccttgccaaggtcggggtcgc
gagttcgagtctcgtttcccgctcca

С помощью seqret гомологичный участок был вырезан в файл ae006138.fasta

>AE006138 Pasteurella multocida subsp. multocida str. Pm70 section 105 of 204 of the complete genome.
gcgggaatagctcagttggtagagcacaaccttgccaaggttggggtcgcgagttcgagc
ctcgtttcccgctcca

Далее программой needle были выровнены две последовательности:

needle glyW.fasta ae006138.fasta aln.needle

Результат:aln.needle

Мы наблюдаем практически полное совпадение.

В записи EMBL гомологичный участок проаннотирован следующим образом:

FT gene 10905..11369
FT /gene="ccmH_1"
FT /locus_tag="PM0012"
FT CDS 10905..11369
FT /codon_start=1
FT /transl_table=11
FT /gene="ccmH_1"
FT /locus_tag="PM0012"
FT /product="CcmH"
FT /db_xref="InterPro:IPR005616"
FT /db_xref="UniProtKB/TrEMBL:Q9CPM5"
FT /protein_id="AAK02096.1"
FT /translation="MKKLTALFLLCLSFSSLAAIEGVQFSSTQQEKDYHALTQELRCPQ
FT CQNNNIADSNATIAVDMRHKVLELLQEGKSKQDVVNFMVERYGHFVTYDPPLTVATVSL
FT WVIPALFVILGFRLLFRRHTKQVVTAQASEPRLSDEQKQRLQRLLQEKKE"

5. Поиск некодирующих последовательностей программой Fasta.

Необходимо было проделать работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35.

1. Для начала была запущена программа fasta35 по всем тРНК Ecoli:

 
    fasta35 trna_ecoli.fasta pm_genome.fasta 6 < fasta_answers.txt

<<Обратно на третий семестр
<<Обратно на главную страницу