Поиск сходных нуклеотидных последовательной, не кодирующих белки

На главную страницу семестра

Задача этого задания заключается в том, чтомы выбираем тРНК у кишечной палочки (Escherichia coli K-12) и пытаемсянайти наиболеее похожую на нее последовательность в родственном геноме. В качестве "родственного" генома нам предлагается геном достаточно далекого организма - геном сенной палочки (Bacillus subtilis).

Определение тРНК, которая была использована рибосомой при присоединении 4-ого аминокислотного остатка к растущей цепи белка DPO3E

В 4-ой позиции моео белка находится аланин (A). Соответствующая запись в (файле), содержащем ген белка -GCA, с помощью таблицы стандартного генетического кода определено, что вырожденная позиция этом кодоне - третья (выделено подчеркиванием), что и не удивительно, учитывая эффект "качания". Аланин может кодироваться 4 кодонами, но разных тРНК может быть меньше, что мы и видим на практике: используя возможности программы grep (при этом испльзовалась команда grep -n codon.*alanine ecoli.embl > codon_f.txt), результаты данной команды находятся здесь. Мы видим, что был найден еще и фенилаланин, но так как объем файла небольшой, можно просто выбрать необходимые.
Можем видеть, что реально используется две тРНК (UGC, GGC), реальное подтверждение эффекта качания.
Далее используя эти результаты, мы искали записи для тРНК в аннотации ecoli.embl, там содержится несколько записей, для дальнейшего рассмотрения была выбрана первая, ее характеристики приведены в табл.1.

Таблица 1. Выбор т-РНК

 Аминокислотный остаток в 4-ой позиции белка DPO3E_ECOLI Аланин
  Соответствующий кодон в гене 5'-GCA-3'
  Идеальный антикодон 5'-UGC-3'
  Сколько можно было бы ожидать разных тРНК для остатка X, если опираться на генетический код?  4
  Сколько разных тРНК для остатка A(Аланин) аннотировано в геноме кишечной палочки?  2
  Характеристика выбранной для дальнейшего изучения тРНК:
      имя гена  alaV
      локализация гена в геноме  225500..225575
      распознаваемый кодон  GCD
      антикодон  UGC

Результат поиска всех тРНК у Escherichia coli K-12:

5209:FT                   /note="codons recognized: GCD; anticodon: UGC alanine
56846:FT                   /note="codons recognized: GCY; anticodon: GGC alanine
56858:FT                   /note="codons recognized: GCY; anticodon: GGC alanine
70127:FT                   /note="codons recognized: UUY; anticodon: GAA phenylalanine
77207:FT                   /note="codons recognized: GCD; anticodon: UGC alanine
91061:FT                   /note="codons recognized: GCD; anticodon: UGC alanine
97788:FT                   /note="codons recognized: UUY; anticodon: GAA phenylalanine



При помощи команды seqret (seqret ecoli.embl -sask , а затем указывая начальные и конечные позиции из таблицы) получили последовательность данной тРНК (76 нуклеотидов)

Поиск гомологичных тРНК в родственном геноме

Ваша задача - найти в геноме Bacillus subtilis (P:/tmp/bs_genome.fasta) последовательность, наиболее похожую на последовательность тРНК из E.coli, выбранную в упр. 1. Поиск надо провести с помощью 4-х разных программ для быстрого поиска сходных нуклеотидных последовательностей.

Таблица 2. Поиск гомологичной т-РНК

Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
Длина якоря 6 11 28 11
Результаты поиска В результате получили значения для 20 выравниваний (для 10 были сделаны выравнивания). Работа программы отличается от BLASTN как алгоритмом, так и видом вывода результатов. Надо сказать, что результаты выравниваний нельзя назвать хорошими, так как очень велики значения E-value(надо заметить, что там это значение так не называется). Запись Z99104 Результаты поиска см.здесь. Z99124 Z99124 Bacillus subtilis complete genome. В Результате получили 12 локалных выравниваний, два из которых имеют наилучшие значения E-value и Score. В результате получен файл. Запись EMBL Z99104. Построено два локальных выравнивания с неплохими e-value.   То же самое что и предыдущей программой
Число находок с E-value < 0,01  1  4  2  2
Характеристика лучшей находки:
      E-value
 1.6e-18  4e-24  2e-26  2e-26
      длина выравнивания  76  53  57  57
      вес выравнивания  84.2  105 bits  113 bits  113 bits
      координаты в геноме  11550-11630 (правда при этом даются коцевые не входящие в выравнивание участки)  158567-158623 (выравнивание происходило по комплементарной последовательности)  166259-166327  166259-166327
Аннотация лучшей находки по записи EMBL:
      Имя гена  trnO-Ile(Embl:Z99104)  Embl:Z99119 - trnB-Ala  Embl:Z99104, ген trnI-Ala (совпадение по расположению с высокой точностью)  Embl:Z99104, ген trnI-Ala (совпадение по расположению с высокой точностью)
      Это тРНК?  Да  Да  Да  Да
      Это тоже аланиновая тРНК?  НЕТ  Да  Да  Да



Для выполнения задания использовались следующие команды:

  1. formatdb -i bs_genome.fasta -n bs -p F

    Получаем три индексных файла ((bs.nhr, bs.nsq, bs.nin), которые потом понадобятся для поиска в созданной базе данных.

  2. blastall -p blastn -d bs -i tRNK.fasta -o bln.txt

    Рузультатом является выравнивания, созданные программой BLASTN

  3. fasta34 tRNK.fasta bs_genome.fasta 6

    Далее следовало ввести необходимые параметры для количества выравниваний, и количества отображенных выравниваний. В результате, имеем файл с 20 выравниваниями и одним значимым выравнивнивнием (с удовлетворительным значением E-value).

  4. megablast -d bs -i tRNK.fasta -D 2 -e 10 -o mgbl.txt

    Изначально опции -D не было, но в результате был получен непонятный файл, в котором выравниваний не было. При использовании этой опции в файле появились выравнивания, причем совпадение было очень хорошим.

  5. megablast -d bs -i tRNK.fasta -D 2 -N 1 -W 11 -t 21 -o dmgbl.txt

    Для запуска этой программы нужно использовать обычный megablast, но следует ввести дополнительные опции: -t, для того чтобы снизить количество случайных нахолок (выбрали 21), -W, число значимых нуклеотидов (11), и значение -N некодирующий(1), то есть не кодирует белковую последовательность. В результате мы получили абсолютно такой же файл, что и при использовании обычным megablast-ом, даже меняя значения допустимого E-value файл оставался точно таим же, что довольно странно, но по-видимому, найденная последовательность была действительно очень схожа с той, что я искал. Чтобы убедиться что две последние программы не идентичны я понизил значение -t до 16 и результат сразу изменился, находок стало 4, причем были найдены еще 2 выравнивания с E-value ниже 0.01 и неплохим Score. Файл выможете посмотреть здесь.

    Сравнение программ

    Посмотрев еще раз на таблицу, сравнимполученные результаты. Неожиданно получилось, что программа MEGABLAST очень успешно справилась с поставленной задачей, хотя она и не предназначена для такого рода деятельности (для поиска гомологов у нее слишком большой порог, авот для поиска копий она очеь хорошо подходит), меня долго волновал вопрос, почему же программа Blastn, которая должна была также найти этот участок выравнивания, не нашла его, ведь этот участок должен был бы быть и ее одной из лучших находок (но координаты разные). Посмотрев на два выравнивания и сравнив их я, наконец, заметил, что выравнивания абсолютно идентичны, но координаты разные, так как ссылки на разные записи EMBL. Видимо это были пересекающиеся записи, к тому же для лучшей находки BLASTN дал две запси, одна из которых была той же, что и в MEGABLAST. То есть, как и ожидалось, программа Blastn, хорошо справилась с поставленной задачей. Что касается программы FASTA34, надо сказать, что выравнивания у нее были не очень хорошими по качеству, по своему виду и по тому, что она нам нашла (конечно тРНК, но не той аминокислоты). Довольно интересна программа discontiguous MegaBLAST, особенно она хороша тем, что легко можно поменять необходимые значения и получить нужный результат, в чем мы собственно и убедились, поменяв значение -t.


    ©Метелев Михаил