Поиск сходных нуклеотидных последовательностей, не кодирующих белки
grep "anticodon.*glutamine" ecoli.embl > counter1.txtПолучен текстовый файл counter1.txt c результатами поиска в embl-файле с геномом кишечной палочки строк, в которых встречаются словa anticodon и glutamine (неподряд). Строки представляют собой поля FT embl-документа и их содержимое в записях о соответствующих глутаминовых тРНК.
seqret ecoli.embl -saskС помощью команды seqret после ввода координат последовательностей нуклеотидов для каждой из тРНК получены fasta-файлы с нужными последовательностями тРНК: tRNA1.fasta & tRNA2.fasta.
Аминокислотный остаток в 4-ой позиции белка CAPP_ECOLI |
Q (Glutamine) |
Соответствующий кодон в гене ppc |
atg aac gaa caa tat tcc gca
5'-CAA-3' Третья позиция в триплете является вырожденной, согласно таблице генетического кода, на третьем месте может находится А (аденин) или G (гуанин), в нашем случае это аденин. |
Идеальный антикодон |
5'-UUG-3' |
Количество разных ожидаемых тРНК для глутамина, согласно генетическому коду |
В таблице генетического кода указано
два варианта кодирования глутамина: 5'-CAA-3' & 5'-CAG-3' То есть, если не брать во внимание все "исключительные" случаи, когда по случайным причинам это не выполняется, можно думать, что существует две тРНК для глутамина с соответствующими антикодонами: 5'-UUG-3' & 5'-CUG-3'. Но это в теории. На практике мы имеем несколько иную картину: в EMBL-записи даются кодоны: CAR, где R - или аланин, или глутамин, то есть имеется в виду, что одна тРНК может распознавать как 5'-CAA-3' кодон, так и 5'-CAG-3', засчёт пониженной специфичности к последнему нуклеотиду триплета. |
Количество разных тРНК для глутамина, аннотированных в геноме кишечной палочки |
Предположения о количестве разных тРНК для глутамина согласно генетическому коду подтвердились
и в геноме кишечной палочки аннотировано две тРНК:
|
Общее число генов глутаминовой тРНК
| 4 гена (gltW, gltU, glnW, glnU) |
Характеристика глутаминовой тРНК1 | |
Имя гена |
glnW |
glnU | |
Локализация гена в геноме |
(695979..696053) (комплементарная цепь) для glnW |
(696088..696162) (комплементарная цепь) для glnU | |
Распознаваемый кодон |
5'-CAA-3' & 5'-CAG-3' (5'-CAR-3') |
5'-CAA-3' & 5'-CAG-3' (5'-CAR-3') | |
Aнтикодон |
5'-UUG-3' |
5'-UUG-3' | |
Результат поиска всех глутаминовых тРНК у Escherichia coli K-12 | |
FT /note="codon recognized: CAG; anticodon: CUG glutamine FT /note="codon recognized: CAG; anticodon: CUG glutamine FT /note="codons recognized: CAR; anticodon: UUG glutamine FT /note="codons recognized: CAR; anticodon: UUG glutamine | |
Последовательность нуклеотидов, соответствующая глутаминовой тРНК1 |
Последовательность нуклеотидов, соответствующая глутаминовой тРНК2 |
tggggtatcgccaagcggtaaggcaccggtttttgat accggcattccctggttcgaatccaggtaccccagcc atcttcttcgagtaagcggttcaccgcccggttattg gggtatcgccaagcggtaaggcaccggtttttgatac cggcattccctggttcgaatccaggtaccccagcca |
tggggtatcgccaag cggtaaggcaccggt ttttgataccggcat tccctggttcgaatc caggtaccccagcca |
Программа |
FastA35 |
BLASTN |
MegaBLAST |
discontiguous MegaBLAST |
Длина якоря (кол-во нуклеотидов) |
6 |
11 |
28 |
11(12) (значимые) |
Результаты поиска |
fasta_search.txt Программа Fasta34 из пакета FASTA - предшественница разработанного в дальнейшем пакета BLAST, посему она использует менее эффективный алгоритм, нежели любая программа из пакета BLAST. В частности абсолютно не используются индексные файлы. |
megablast_search.txt Очень длинный якорь. Для решения нашей задачи такое "мегаточное" сходство нуклеотидных последовательностей только вредит результатам, причём весьма основательно: |
||
Число находок с E-value < 0,01 |
1 |
0 |
0 |
0 |
Характеристика лучших находок: | ||||
E-value |
0.0002 |
- |
- |
- |
Номер сектора генома | section 23 | - |
- |
- |
AC соответствующей записи EMBL |
AE010148 |
- |
- |
- |
координаты выравнивания(-ий) в записи EMBL |
5857..6010 |
- |
- |
- |
Аннотация лучшей находки по записи EMBL: | ||||
Это тРНК? |
Да |
- |
- |
- |
Глутаминовая ли тРНК? |
Нет, tRNA-Arg |
- |
- |
- |
formatdb -i bs_genome.fasta -n bs -p F
blastall -p blastn -d bs -i tRNA1.fasta -o blnans.txt
megablast -d bs -i tRNA1.fasta -D 2 -o megablans.txt
В результате получен файл, не содержащий ни одного выравнивания. Якорь (word size; значение параметра -W по умолчанию (default) равно 28) в 28 нуклеотидов слишком велик для того, чтобы провести поиск гомологов с не слишком высоким процентом идентичности. Параметр -D и его значение 2 необходимы для того, чтобы файл с результатами выдавался в таком же формате, в каком он выдаётся в on-line версии BLAST.
megablast -d bs -i tRNA1.fasta -D 2 -N 1 -W 12 -t 18 -o dismegablans.txt
В результате получен файл с отчётом discontiguous MegaBLAST о проделанном поиске. Параметр -D (2) всё также необходим для формата выдаваемого отчёта. Параметр -t (Discontiguous word template length) задаёт длину паттерна. Допустимые значения для этого параметра 16, 18, 21.
fasta34 tRNA1.fasta bs_genome.fasta 6
Якорь длиной 6 по умолчанию. Программа задала следующие вопросы: в какой файл направить отчёт, сколько показывать находок, показать ли ещё, нужны ли выравнивания и сколько.