Поиск гомологов некодирующей
нуклеотидной последовательности.
Для этого:
Узнали,
какой аминокислотный остаток находится в 4-ой позиции белка AZOR_ECOLI – это: Лейцин (L Leu Leucine). Данные из
аминокислотной последовательности AZOR_ECOLI.
Определили
соответствующий ему кодон в гене белка AZOR_ECOLI, и
записали его используя 'U' и правило 5'→3' (5'-TTA-3').
Данные из нуклеотидной
последовательности AZOR_ECOLI.
Справляясь
с таблицей
стандартного генетического кода
определили возможную вырожденную позицию в данном кодоне (1 и 3) . Выделили ее
подчеркиванием.
Записали
последовательность "идеального" (т.е. полностью комплементарного)
антикодона, используя 'U' и правило 5'→3'. (5'-UAA-3') Подчеркнули вырожденную позицию.
Команды, использованные при выполнении
данного упражнения:
grep
codon.*leucine ecoli.embl
> codon_l.txt
При этом программа находит не только
лейцин, но и изолейцин.
seqret
-sask ecoli.embl
(в качестве параметров указывались координаты и имя выходного файла). В
результате получен файл с
последовательностью tRNA5.
В результатах поиска всех лейциновых тРНК у Escherichia coli K-12 приведены
не все строки, а только те, что описывают
лейцин (нет записей для изолейцина). Для дальнейшего изучения была
выбрана пятая тРНК: tRNK5.
Аминокислотный остаток в 4-ой позиции белка AZOR_ECOLI |
L |
Соответствующий кодон в гене acpD |
5'-TTA-3' (вырожденная позиция – последний
нуклеотид - A,
т.к и TTG кодирует лейцин. Кроме того, первый
нуклеотид Т можно также считать условно вырожденным, т.к. кодон СTA также кодирует лейцин, вместе с кодонами СTT, СTC, СTG. |
Идеальный антикодон |
5'-UAA-3' |
Сколько можно было бы ожидать разных тРНК для остатка L |
Можно было ожидать 6 вариантов тРНК,
т.к. в генетическом коде используется 6 вариантов для кодирования лейцина:
TTA, TTG, CTT, CTC, CTA и CTG. |
Сколько тРНК для остатка L аннотировано в геноме кишечной палочки? |
В геноме E.coli аннотировано
5 разных тРНК, причем для тРНК1
приведено 4 разных гена. |
Характеристика выбранной для
дальнейшего изучения лейциновой tRNA5: |
|
название гена |
leuX |
координаты гена в записи EMBL |
4494428..4494512 |
антикодон |
CAA |
Результат поиска всех лейциновых тРНК у Escherichia coli K-12: |
FT /note="codons recognized: CUR; anticodon: UAG leucine FT /note="codons recognized: UUR; anticodon: UAA leucine FT /note="codons recognized: CUY; anticodon: GAG leucine FT /note="codon recognized: CUG; anticodon: CAG leucine tRNA1; FT /note="codons recognized: UUR; anticodon: CAA leucine FT /note="codon recognized: CUG; anticodon: CAG leucine tRNA1; FT /note="codon recognized: CUG; anticodon: CAG leucine tRNA1;
FT /note="codon
recognized: CUG; anticodon: CAG leucine tRNA1; |
Задача — найти в геноме
архебактерии последовательность, наиболее похожую на отобранную
в упр1. tRNA5 из E.coli, чей антикодон отличается от «идеального» только в
вырожденной позиции, зато ген находиться на прямой цепи и его нуклеотидная
последовательность больше. Поиск проводился в геноме Pyrococcus furiosus.
Поиск был
проведен с помощью 4-х разных программ, предназначенных для быстрого поиска сходных нуклеотидных последовательностей.
Результаты в таблице:
Программа |
FastA |
BLASTN |
MegaBLAST |
Discontigous |
Число
находок с Е-value <
0,001 |
0 |
0 |
0 |
0 |
Характеристика лучшей
находки: |
||||
E-value
находки |
0.77 |
1.7 |
- |
- |
Номер
сектора генома |
130 |
96 |
- |
- |
AC
соответствующей записи EMBL |
AE010255 |
AE010221 |
- |
- |
координаты
выравнивания(-ий) в записи
EMBL |
5427-5466 |
4102-4114 |
- |
- |
Аннотация
лучшей находки по EMBL |
tRNA
Leu антикодон TAA |
Неаннотированный
гипотетический белок. |
- |
- |
Команды, использованные при выполнении данного упражнения:
1.) formatdb -i pf_genome.fasta -n pf -p F
Результат: три индексных файла (pf.nhr, pf.nsq, pf.nin) генома Pyrococcus furiosus .
2.) blastall -p blastn
-d pf -i leux.fasta -o result_blastnx.txt
Результат: файл с находками и выравниваниями, созданными программой BLASTN. Все
значения e-value значительно
больше 0.001.
3.) fasta35 leux.fasta pf_genome.fasta
6
Была
задана длина якоря (6) и в командной
строке были указаны входные файлы, так же то, сколько находок показать,
показать ли ещё, отображать ли выравнивания и сколько.
4.) megablast -d pf
-i leux.fasta -D 2 -o result_mega.txt
Результат: Ничего не было найдено.
5.) megablast -d pf
-i leux.fasta -D 2 -N 1 -W 11 -t 21 -o result_dismega.txt (Для
запуска команды необходимо задать опцию -t. Для начала
была задана длина паттерна 21 вида ( 1101101101101101),
затем 16 - чтобы получить хотя бы низко достоверные находки.
Якорь (-W) был задан равным 11. Тип паттерна (-N) - некодирующий
(1) Результат: программа не выдает результатов при использовании любых различных комбинации -N, -w , –t и -e.)
Как видно из таблицы, наиболее эффективной оказалась программа FastA , ее находка с самым низким Е-value действительно оказалась лейциновой
тРНК. FastA для проведения локального выравнивания
использует весьма чувствительный алгоритм Смита-Ватермана.
Который, благодаря небольшой длине якоря (6 bp ), позволяет зацепить даже отдаленные возможные гомологи гена.
В то же время, программы BLASTN, MegaBLAST и Discontigous
MegaBLAST не дали вразумительных результатов. Это
можно объяснить тем, что данные программы в большей степени предназначены для
быстрого поиска близкородственных последовательностей. Длина якоря в MegaBLAST по умолчанию равна 28, что дает этой
программе преимущество в скорости над BLASTN, чей якорь11, но
зато снижает ее чувствительность, позволяя ей находить только очень родственные
или идентичные последовательности.
Спивак Ольга