Задача: выбрать тРНК у кишечной палочки (Escherichia coli K-12) и найти наиболее похожую на нее последовательность в родственном геноме. В качестве "родственного" генома предложен геном достаточно далекого организма геном сенной палочки (Bacillus subtilis), см. P:/tmp/bs_genome.fasta
В 4-ой позиции белка ASPG2_ECOLI находится F - фенилаланин (см. файл ASPG2_ECOLI.fasta). Cоответствующая запись в файле, содержащем ген белка, - ttc (т.к. кодирующая последовательность - с 349; "искомые" позиции 355-357). Используя 'U' и правило 5'→3' (как оговорено в задании), заполняю пункты таблицы. С помощью таблицы стандартного генетического кода определена вырожденная позиция в данном кодоне - третья (выделена подчеркиванием). Phe (фенилаланин) кодируется двумя кодонами: uuu и uuc (uuy - в общем виде); значит логично предположить наличие 2х разных тРНК для остатка фенилаланина (с антикодонами 5'-aaa-3' и 5'-gaa-3').
Теперь следует определить, сколько разных тРНК использует E.coli
для данного аминокислотного
остатка.
Для этого в рабочую директорию был скопирован файл ecoli.embl с аннотированным геномом E.coli.
С помощью команды
grep -n codon.*phenylalanine ecoli.embl > codon_f.txtв записи найденны строчки, в которых одновременно, но не подряд, встречаются слово codon и название нужной аминокислоты - phenylalanine; вывод перенаправлен в файл. Оказалось, что для кишечной палочки аннотирована тРНК с антикодоном gaa (2 записи в файле ecoli.embl; в таблицу занесена информация по обеим из них; предварительно проведен текстовой поиск в файле ecoli.embl).
Последовательность получена с помощью программы seqret пакета EMBOSS, установленного на kodomo-count; кoманда
seqret ecoli.embl -sask
и, соответственно, необходимые параметры по запросу (с 3108388 нуклеотида - начало; 3108463 - конец).
Таблица 1. Выбор т-РНК
Аминокислотный остаток в 4-ой позиции белка ASPG2_ECOLI | F | ||
Соответствующий кодон в гене M34234 | 5'-ttc-3' | ||
Соответствующий кодон в мРНК | 5'-uuc-3' | ||
Идеальный антикодон | 5'-gaa-3' | ||
Сколько можно было бы ожидать разных тРНК для остатка F, если опираться на генетический код? | 2 | ||
Сколько разных тРНК для остатка F аннотировано в геноме кишечной палочки? | 1 тип - с антикодоном 5'-gaa-3' (2 записи) | ||
Характеристика выбранной для дальнейшего изучения тРНК (выделена жирным шрифтом) : | |||
Имя гена | Локализация гена в геноме | Распознаваемый кодон | Антикодон |
pheV (синонимы: ECK2962, JWR0068) | нуклеотиды 3108421..3108423 | 5'-uuy-3' | 5'-gaa-3' |
pheU (синонимы: pheR, pheW, ECK4128, JWR0111) | нуклеотиды 4360614..4360616 (комплементарная цепь) | 5'-uuy-3' | 5'-gaa-3' |
Результат поиска всех фенилаланиновых тРНК у Escherichia coli K-12: | |||
70127:FT /note="codons recognized: UUY; anticodon: GAA phenylalanine 97788:FT /note="codons recognized: UUY; anticodon: GAA phenylalanine | |||
Последовательность выбранной тРНК: | |||
gcccggatagctcagtcggtagagcaggggattgaaaatccccgtgtccttggttcgatt ccgagtccgggcacca |
Задача найти в геноме Bacillus subtilis последовательность, наиболее похожую на последовательность тРНК из E.coli, выбранную в предыдущем задании. Поиск проводится с помощью 4-х разных программ для быстрого поиска сходных нуклеотидных последовательностей.
Таблица 2. Поиск гомологичной т-РНК
Программа | FASTA | BLASTN | MegaBLAST | discontiguous MegaBLAST |
Длина якоря | 6 пар нуклеотидов | 11 пар нуклеотидов | 28 пар нуклеотидов | 11 (или 12) пар нуклеотидов |
Результаты поиска | Получен файл, содержащий 4 выравнивания найденной тРНК и нескольких участков последовательности
генома Bacillus subtilis (AL00912). Формат отличается от выдачи BLAST (отличается и принцип работы: например, не используются индексные файлы, используется другой алгоритм). Выравнивания нельзя назвать
хорошими, т.к. велики значения E-value. Кроме того, "выравнилось" только начало последовательности генома (в этой связи интересна запись 22592 residues in 1 library sequencesв файле). |
файлAL009126_GR Bacillus subtilis (strain 168) chromosome, complete- полный геном Bacillus subtilis AL00912; получено 13 локальных выравниваний, 2 из которых - с наилучшими E-value < 0,01. |
файл Находок нет |
файл Полный геном Bacillus subtilis AL009126; 2 выравнивания "соответствуют" двум генам |
Число находок с E-value < 0,01 | 0 | 2 | | 2 |
Характеристика лучшей находки: | ||||
E-value | 0.025 | 2*10^-04 | | 2*10^-04 |
длина выравнивания | 56 | 56 | | 56 |
вес выравнивания | 26.0 бит | 40.1 бит (20) | | 40.1 бит (20), |
координаты в геноме | 11557-11612 | 1. trnY-Phe 4153875...4153820 2. trnB-Phe 3171539...3171484 координаты "в двух вариантах", т.к. выравнивания одинаковые по основным характеристикам. Примечание: координаты указаны "от большего к меньшему": запись Strand = Plus / Minusв файле указывает на то, что выравнивание происходило по комплементарной последовательности. |
| 1. trnY-Phe 4153875...4153820 2. trnB-Phe 3171539...3171484 координаты "в двух вариантах", т.к. выравнивания одинаковые по основным характеристикам |
Аннотация лучшей находки по записи EMBL: | ||||
имя гена | trnO-Ala {EMBL:AL009126} |
trnY-Phe,
trnB-Phe {EMBL:AL009126} |
| trnY-Phe,
trnB-Phe {EMBL:AL009126} |
это тРНК? | Да | Да | | Да |
это тоже фенилаланиновая тРНК? | Нет | Да | | Да |
Используемые команды (подсказки к blastall см. здесь; "README for standalone MEGABLAST" - информация о параметрах MegaBLAST и discontiguous MegaBLAST; подробное описание пакета FASTA - см. здесь.):
formatdb -i bs_genome.fasta -p F -n bs
blastall -p blastn -d bs -i u00096.fasta -o bln_trna.txt
megablast -d bs -i u00096.fasta -D 2 -e 10.0 -o mblast_trna.txt
megablast -d bs -i u00096.fasta -o dcmblast_trna.txt -e 10.0 -D 2 -N 1 -t 21 -W 11
Объяснение выбора параметров: -t=21 - увеличение параметра -t приводит к уменьшению числа находок, в т.ч. случайных; -N=1 - некодирующий.
fasta34 u00096.fasta bs_genome.fasta 6
seqret embl:AL009126 -auto
22592 residues in 1 library sequences; это связано с особенностями работы алгоритма]. Наилучшая находка обладает высоким E-value: соответствующая тРНК из Bacillus subtilis оказывается аланиновой, а не фенилаланиновой.
В целом, "идеальная" программа поиска гомологичных некодирующих последовательностей так и не была обнаружена. Общие выводы делать нельзя - "действовать" надо по ситуации.