Поиск сходных нуклеотидных последовательностей, не кодирующих белки





 1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST

Таблица 1. Выбор т-РНК
 

 Аминокислотный остаток в 4-ой позиции белка DAPB_ECOLI A
  Соответствующий кодон в гене dapB 5'-GCA-3'
  Идеальный антикодон 5'-UGC-3'
  Сколько можно было бы ожидать разных тРНК для остатка X, если опираться на генетический код?  4
  Сколько разных тРНК для остатка X аннотировано в геноме кишечной палочки?  2 (всего обнаружено 5 генов, однако, из них есть по 2 одинаковые записи для кодонов (и антикодонов) двух генов, я подозреваю, различны из них 2)

  Характеристика выбранной для дальнейшего изучения тРНК:

      имя гена alaV
также найдены гены (не рассматриваются далее) alaU, alaT
      локализация гена в геноме 225500..225575
      распознаваемый кодон GCD 
      антикодон  UGC

Результат поиска всех аланиновых тРНК у Escherichia coli K-12

FT                   /note="codons recognized: GCD; anticodon: UGC alanine
FT                   /note="codons recognized: GCY; anticodon: GGC alanine
FT                   /note="codons recognized: GCY; anticodon: GGC alanine
FT                   /note="codons recognized: GCD; anticodon: UGC alanine
FT                   /note="codons recognized: GCD; anticodon: UGC alanine


(еще были найдены записи для фенилаланина)


Используемые команды:
  • grep -n "codon.*alanine" ecoli.embl>result.txt
  • seqret ecoli.embl -sask (с указанием начала и конца последовательности и мени получаемого файла)

 1. Поиск гомологичных тРНК в родственном геноме Bacillus subtilis

Таблица 2. Поиск гомологичной т-РНК

Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
Длина якоря 6 11 28 11
Результаты поиска файл файл файл файл
Число находок с E-value < 0,01 1 4 2 2
Характеристика лучшей находки:
      E-value 1.6e-18 4e-24 2e-26  2e-26
      длина выравнивания 76 53 57 57
      вес выравнивания bits: 84.2 105 bits 113 bits 113 bits
      координаты в геноме 11550-11630 158567-158623 166259-166327 166259-166327
Аннотация лучшей находки по записи EMBL:
      имя гена trnO-Ile
(Embl:Z99104)
 trnB-Ala
(Embl:Z99119)
 trnI-Ala
(Embl:Z99104)
trnI-Ala
(Embl:Z99104)
      это тРНК? да да да да
      это тоже аланиновая тРНК? нет да да да

Поиск в 4 программах
Для поиска в предложенных программах были выполнены команды

  • formatdb -i bs_genome.fasta -p F -n bs (получили 3 индексных файла)
  • blastall -p blastn -d bs -i _y.fasta -o bln_y.txt (получили файл с результатом)
  • megablast -d bs -i _y.fasta -D 2 -o mega.txt (получили файл с результатами)
  • megablast -d bs -i _y.fasta -N 2 -W 11 -t 21 -D 2 -o disc.txt (получили файл с результатами)
  • fasta34 _y.fasta bs_genome.fasta (ответил на вопросы. указал, чтобы в выдаче было 20 выравниваний - на всякий случай - мало ли что найдется)
Сравнение программ:

Заметим, что программы discontiguous MegaBLAST и BLASTN выдали, пускай и отличающиеся, но в очень многом схожие результаты. По крайней мере для первых двух находок. Как мы можем видеть, значения e-value, длина выравнивания, вес выравнивания совпадают. Это может быть объяснено одинаковым значением якоря (11 нуклеотидов). Эти программы можно использовать как дополняющие друг друга при важном исследовании, так скажем, для перепроверки полученных данных для выравниваний с наилучшим e-value. Программа FASTA34 обладает развернутым диалогом с пользователем, что позволяет по ходу ее выполнения корректировать файл выдачи по некоторым параметрам (количественным). Это может быть чрезвычайно удобно при ситуации, когда есть определенные критерии на данные в выдаче, к примеру, количество выравниваний или, скажем, если в выдаче должны быть показаны 40 "гомологов" (для выравниваний разных штаммов одного организма), но показаны только выравнивания с формальным значением e-value 0.0. Есть  разница в визуализации выдачи. К примеру FASTA34 при выравнивании использует  при совпадении ":", тогда как другие используют "|". В итоге мы получаем совокупность программ, которыми, при важном исследовании, стоит пользоваться в комплексе, проводить оценку и выводить конечный результат, уже основываясь на данных 4х программ.