1. Создание индексных файлов для
работы с локальными версиями программ
семейства BLAST
Таблица 1. Выбор т-РНК
Аминокислотный остаток в 4-ой позиции белка
DAPB_ECOLI |
A |
Соответствующий кодон в гене
dapB |
5'-GCA-3' |
Идеальный антикодон |
5'-UGC-3' |
Сколько можно было бы ожидать разных тРНК
для остатка X, если опираться на генетический код? |
4 |
Сколько разных тРНК для остатка X аннотировано
в геноме кишечной палочки? |
2 (всего обнаружено 5 генов, однако, из них есть по 2 одинаковые записи для кодонов (и антикодонов) двух генов, я подозреваю, различны из них 2) |
Характеристика выбранной для дальнейшего изучения
тРНК:
|
имя гена |
alaV |
также
найдены гены (не рассматриваются
далее) |
alaU, alaT |
локализация гена в геноме |
225500..225575 |
распознаваемый кодон |
GCD |
антикодон |
UGC |
Результат поиска всех
аланиновых тРНК у Escherichia coli K-12
|
FT /note="codons recognized: GCD; anticodon: UGC alanine
FT /note="codons recognized: GCY; anticodon: GGC alanine
FT /note="codons recognized: GCY; anticodon: GGC alanine
FT /note="codons recognized: GCD; anticodon: UGC alanine
FT /note="codons recognized: GCD; anticodon: UGC alanine
(еще были найдены записи для фенилаланина)
|
Используемые команды:- grep -n "codon.*alanine" ecoli.embl>result.txt
- seqret ecoli.embl -sask (с указанием начала и конца последовательности и мени получаемого файла)
1. Поиск гомологичных тРНК в
родственном геноме Bacillus subtilis
Таблица 2. Поиск гомологичной т-РНК
Программа |
FASTA |
BLASTN |
MegaBLAST |
discontiguous MegaBLAST |
Длина якоря |
6 |
11 |
28 |
11 |
Результаты поиска |
файл |
файл |
файл |
файл |
Число находок с E-value < 0,01 |
1 |
4 |
2 |
2 |
Характеристика лучшей находки: |
E-value
|
1.6e-18 |
4e-24 |
2e-26 |
2e-26 |
длина выравнивания
|
76 |
53 |
57 |
57 |
вес выравнивания
|
bits: 84.2 |
105
bits |
113
bits |
113 bits |
координаты в геноме
|
11550-11630 |
158567-158623 |
166259-166327 |
166259-166327 |
Аннотация лучшей находки по записи EMBL: |
имя гена
|
trnO-Ile
(Embl:Z99104) |
trnB-Ala
(Embl:Z99119) |
trnI-Ala
(Embl:Z99104) |
trnI-Ala
(Embl:Z99104) |
это тРНК?
|
да |
да |
да |
да |
это тоже
аланиновая тРНК?
|
нет |
да |
да |
да |
Поиск в 4 программах
Для поиска в предложенных программах были выполнены команды
- formatdb -i bs_genome.fasta -p F -n bs (получили 3 индексных файла)
- blastall -p blastn -d bs -i _y.fasta -o bln_y.txt (получили
файл с результатом)
- megablast -d bs -i _y.fasta -D 2 -o mega.txt (получили файл с
результатами)
-
megablast -d bs -i _y.fasta -N 2 -W 11 -t 21 -D 2 -o disc.txt (получили
файл с результатами)
- fasta34 _y.fasta bs_genome.fasta (ответил на вопросы.
указал, чтобы в выдаче было 20 выравниваний
- на всякий случай - мало ли что найдется)
Сравнение программ:
Заметим, что
программы discontiguous MegaBLAST и BLASTN
выдали, пускай и отличающиеся, но в очень
многом схожие результаты. По крайней мере
для первых двух находок. Как мы можем
видеть, значения e-value, длина выравнивания,
вес выравнивания совпадают. Это может быть
объяснено одинаковым значением якоря (11
нуклеотидов). Эти программы можно
использовать как дополняющие друг друга
при важном исследовании, так скажем, для
перепроверки полученных данных для
выравниваний с наилучшим e-value. Программа
FASTA34 обладает развернутым диалогом с
пользователем, что позволяет по ходу ее
выполнения корректировать файл выдачи по
некоторым параметрам (количественным). Это
может быть чрезвычайно удобно при
ситуации, когда есть определенные
критерии на данные в выдаче, к примеру,
количество выравниваний или, скажем, если
в выдаче должны быть показаны 40 "гомологов"
(для выравниваний разных штаммов одного
организма), но показаны только
выравнивания с формальным значением e-value
0.0. Есть разница в визуализации выдачи.
К примеру FASTA34 при выравнивании
использует при совпадении ":",
тогда как другие используют "|".
В итоге мы получаем совокупность программ,
которыми, при важном исследовании, стоит
пользоваться в комплексе, проводить
оценку и выводить конечный результат, уже
основываясь на данных 4х программ.
|