Команда
tfm getorfвыдает полное описание команды getorf.
Команда
getorf -minsize 30 -table 11 -find 1 -sequence d89965.entretпозволяет получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода.
Параметры :
-find = принимает параметры от 0 до 6.
0 транслирует рамку между стоп кодонами. 1 транслирует рамку между старт и стоп кодоном. 2 ищет нуклеотидную рамку между стоп кодонами. 3 ищет нуклеотидную рамку между старт и стоп кодоном. 4 нуклеотидная рамка фланкирующая к старт кодону 5 нуклеотидная рамка фланкирующая к инициаторному стоп кодону 6 нуклеотидная рамка фланкирующая к завершающему стоп кодону
-table = принимает параметра от 0 до 23.Коды для разных групп организмов (11 - для бактерий)
-minsize = минимальная длина рамки(в нуклеотидах)
Из найденных открытых рамок приведённой в записи CDS соответствует 5 рамка, 13 рамка - приведенной в Swiss-Prot.
1. Необходимо определить сколько гомологов каждой из тРНК E.coli находит программа BLASTN в геноме родственной бактерии (Pasteurella multocida)
Для этого запускаем программу blast по банку из генома бактерии (без указания порога E-value)
blastall -p blastn -d pm -i trna_ecoli.fasta -o trna.txt -m 9
2. Нужно просмотреть выходной файл и придумать, как (для данной последовательности из trna_ecoli.fasta) запустить grep так, чтобы на выходе получилось число - количество находок именно для данной последовательности.
grep "valV" trna.txt -c
Результат: 32
"valV" - выбранная последовательность,
trna.txt - файл для поиска,
-c - показывать только число находок.
3. Нужно создать колонку из названий входных последовательностей командой:
grep ">" trna_ecoli.fasta > names
Информацию из файла names импортируем в Excel.
Необходимо создать скрипт из команд, выдающих число находок для каждой последовательности.
Файл script.scr написан в редакторе Far и сохранен в соответствующем формате.
Сделаем файл исполняемым:
chmod +x script.scr
Запуск файла:
./script.scr
Получаем файл trnacount.txt со столбцом цифр. Импортируем этот результат в Exel.
Повторим поиск, на этот раз указав порог на E-value, равный 0.001.
blastall -p blastn -d pm -i trna_ecoli.fasta -o trna_ev.txt -m 9 -e 0.001
Создадим скрипт:script2.scr
Запустим его:
./script2.scr
Получаем файл trnacount2.txt со столбцом цифр. Добавляем в отчётную таблицу соответствующий столбец.
Получили файл trna.xls
1. Поиск гомологичных тРНК при помощи программы megablast.
megablast -d pm -i trna_ecoli.fasta -o megablast.txt -m 9
2. Поиск гомолочичных тРНК при помощи программы discontigous megablast.
megablast -d pm -i trna_ecoli.fasta -o discontig.txt -m 9 -D 2 -t 21 -W 12 -N 2
Где параметры :
-D = тип выдачи результатов (2-стандартная выдача бласт)
-t = длина последовательности (с учетом "разрывов")
-W = длина слова. Если W кратно 4, то это гарантирует нахождение наилучших совпадений для
длины слова W+3. Eсли W не кратно 4, то будет рассмотрено ближайшее
кратное 4 значение (по формуле 4*i+2 и 4*i).
-N Discontiguous template type: coding (0), non-coding (1), or both (2)
Далее я создала скрипты для файлов megablast.txt и discontig.txt: script3.scr и script4.scr соответственно.
Отчетный Excel-файл: trna.xls
В одном из полученных при выполнении заданий 2 и 3 выходных файлов BLAST была выбрана пара из tRNA E.coli и найденного в геноме другой бактерии гомологичного участка glyW - AE006138 (10908-10983). Эта пара находится программой BLASTN и не находится программой megablast.
Возможно megablsat не находит многие последовательности потому, что эта программа сравнивает две близкие и малоотличающиеся последовательности, несовпадения в которых могли возникнуть из-за ошибок при секвенировании.
Последовательность из файла trna_ecoli.fasta
>glyW
gcgggaatagctcagttggtagagcacgaccttgccaaggtcggggtcgc
gagttcgagtctcgtttcccgctcca
С помощью seqret гомологичный участок был вырезан в файл ae006138.fasta
>AE006138 Pasteurella multocida subsp. multocida str. Pm70 section 105 of 204 of the complete genome.
gcgggaatagctcagttggtagagcacaaccttgccaaggttggggtcgcgagttcgagc
ctcgtttcccgctcca
Далее программой needle были выровнены две последовательности:
needle glyW.fasta ae006138.fasta aln.needle
Результат:aln.needle
Мы наблюдаем практически полное совпадение.
В записи EMBL гомологичный участок проаннотирован следующим образом:
FT gene 10905..11369
FT /gene="ccmH_1"
FT /locus_tag="PM0012"
FT CDS 10905..11369
FT /codon_start=1
FT /transl_table=11
FT /gene="ccmH_1"
FT /locus_tag="PM0012"
FT /product="CcmH"
FT /db_xref="InterPro:IPR005616"
FT /db_xref="UniProtKB/TrEMBL:Q9CPM5"
FT /protein_id="AAK02096.1"
FT /translation="MKKLTALFLLCLSFSSLAAIEGVQFSSTQQEKDYHALTQELRCPQ
FT CQNNNIADSNATIAVDMRHKVLELLQEGKSKQDVVNFMVERYGHFVTYDPPLTVATVSL
FT WVIPALFVILGFRLLFRRHTKQVVTAQASEPRLSDEQKQRLQRLLQEKKE"
Необходимо было проделать работу, аналогичную заданиям 2 и 3, используя для поиска программу fasta35.
1. Для начала была запущена программа fasta35 по всем тРНК Ecoli:
fasta35 trna_ecoli.fasta pm_genome.fasta 6 < fasta_answers.txtФайл fasta_answers.txt - ответы для интерактивного режима программы.