Поиск сходных нуклеотидных последовательностей, не кодирующих белки


На главную страницу третьего семестра

Задача: выбрать тРНК у кишечной палочки (Escherichia coli K-12) и найти наиболее похожую на нее последовательность в родственном геноме. В качестве "родственного" генома предложен геном достаточно далекого организма – геном сенной палочки (Bacillus subtilis), см. P:/tmp/bs_genome.fasta

  1. Определить, какая тРНК была использована рибосомой при присоединении 4-ого аминокислотного остатка к растущей цепи исследуемого белка ASPG2_ECOLI (AC p00805)
  2. В 4-ой позиции белка ASPG2_ECOLI находится F - фенилаланин (см. файл ASPG2_ECOLI.fasta). Cоответствующая запись в файле, содержащем ген белка, - ttc (т.к. кодирующая последовательность - с 349; "искомые" позиции 355-357). Используя 'U' и правило 5'→3' (как оговорено в задании), заполняю пункты таблицы. С помощью таблицы стандартного генетического кода определена вырожденная позиция в данном кодоне - третья (выделена подчеркиванием). Phe (фенилаланин) кодируется двумя кодонами: uuu и uuc (uuy - в общем виде); значит логично предположить наличие 2х разных тРНК для остатка фенилаланина (с антикодонами 5'-aaa-3' и 5'-gaa-3').

    Теперь следует определить, сколько разных тРНК использует E.coli для данного аминокислотного остатка.
    Для этого в рабочую директорию был скопирован файл ecoli.embl с аннотированным геномом E.coli. С помощью команды

    grep -n codon.*phenylalanine ecoli.embl > codon_f.txt
    в записи найденны строчки, в которых одновременно, но не подряд, встречаются слово codon и название нужной аминокислоты - phenylalanine; вывод перенаправлен в файл. Оказалось, что для кишечной палочки аннотирована тРНК с антикодоном gaa (2 записи в файле ecoli.embl; в таблицу занесена информация по обеим из них; предварительно проведен текстовой поиск в файле ecoli.embl).

    Последовательность получена с помощью программы seqret пакета EMBOSS, установленного на kodomo-count; кoманда

    seqret ecoli.embl -sask

    и, соответственно, необходимые параметры по запросу (с 3108388 нуклеотида - начало; 3108463 - конец).

    Таблица 1. Выбор т-РНК

     Аминокислотный остаток в 4-ой позиции белка ASPG2_ECOLI F
      Соответствующий кодон в гене M34234 5'-ttc-3'
      Соответствующий кодон в мРНК 5'-uuc-3'
      Идеальный антикодон 5'-gaa-3'
      Сколько можно было бы ожидать разных тРНК для остатка F, если опираться на генетический код? 2
      Сколько разных тРНК для остатка F аннотировано в геноме кишечной палочки? 1 тип - с антикодоном 5'-gaa-3' (2 записи)
      Характеристика выбранной для дальнейшего изучения тРНК (выделена жирным шрифтом) :
    Имя гена Локализация гена в геноме Распознаваемый кодон Антикодон
    pheV (синонимы: ECK2962, JWR0068) нуклеотиды 3108421..3108423 5'-uuy-3' 5'-gaa-3'
    pheU (синонимы: pheR, pheW, ECK4128, JWR0111) нуклеотиды 4360614..4360616 (комплементарная цепь) 5'-uuy-3' 5'-gaa-3'
      Результат поиска всех фенилаланиновых тРНК у Escherichia coli K-12:
    70127:FT                   /note="codons recognized: UUY; anticodon: GAA phenylalanine
    97788:FT                   /note="codons recognized: UUY; anticodon: GAA phenylalanine

      Последовательность выбранной тРНК:
    gcccggatagctcagtcggtagagcaggggattgaaaatccccgtgtccttggttcgatt
    ccgagtccgggcacca

  3. Поиск гомологичных тРНК в родственном геноме
  4. Задача — найти в геноме Bacillus subtilis последовательность, наиболее похожую на последовательность тРНК из E.coli, выбранную в предыдущем задании. Поиск проводится с помощью 4-х разных программ для быстрого поиска сходных нуклеотидных последовательностей.

    Таблица 2. Поиск гомологичной т-РНК

    Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
    Длина якоря 6 пар нуклеотидов 11 пар нуклеотидов 28 пар нуклеотидов 11 (или 12) пар нуклеотидов
    Результаты поиска Получен файл, содержащий 4 выравнивания найденной тРНК и нескольких участков последовательности генома Bacillus subtilis (AL00912). Формат отличается от выдачи BLAST (отличается и принцип работы: например, не используются индексные файлы, используется другой алгоритм). Выравнивания нельзя назвать хорошими, т.к. велики значения E-value. Кроме того, "выравнилось" только начало последовательности генома (в этой связи интересна запись
    22592 residues in 1 library sequences
    в файле).
    файл

    AL009126_GR Bacillus subtilis (strain 168) chromosome, complete
    - полный геном Bacillus subtilis AL00912; получено 13 локальных выравниваний, 2 из которых - с наилучшими E-value < 0,01.
    файл

    Находок нет

    файл

    Полный геном Bacillus subtilis AL009126; 2 выравнивания "соответствуют" двум генам

    Число находок с E-value < 0,01 0 2 2
    Характеристика лучшей находки:
          E-value 0.025 2*10^-04 2*10^-04
          длина выравнивания 56 56 56
          вес выравнивания 26.0 бит 40.1 бит (20) 40.1 бит (20),
          координаты в геноме 11557-11612

    1. trnY-Phe 4153875...4153820

    2. trnB-Phe 3171539...3171484

    координаты "в двух вариантах", т.к. выравнивания одинаковые по основным характеристикам.

    Примечание: координаты указаны "от большего к меньшему": запись

    Strand = Plus / Minus
    в файле указывает на то, что выравнивание происходило по комплементарной последовательности.

    1. trnY-Phe 4153875...4153820

    2. trnB-Phe 3171539...3171484

    координаты "в двух вариантах", т.к. выравнивания одинаковые по основным характеристикам

    Аннотация лучшей находки по записи EMBL:
          имя гена trnO-Ala

    {EMBL:AL009126}

    trnY-Phe,

    trnB-Phe {EMBL:AL009126}

    trnY-Phe,

    trnB-Phe {EMBL:AL009126}

          это тРНК? Да Да Да
          это тоже фенилаланиновая тРНК? Нет Да Да

    Используемые команды (подсказки к blastall см. здесь; "README for standalone MEGABLAST" - информация о параметрах MegaBLAST и discontiguous MegaBLAST; подробное описание пакета FASTA - см. здесь.):

    1. Для получения индексных файлов (3 файла - bs.nhr, bs.nsq, bs.nin):
      formatdb -i bs_genome.fasta -p F -n bs
    2. Поиск с BLASTN:
      blastall -p blastn -d bs -i u00096.fasta -o bln_trna.txt
    3. Поиск с MegaBLAST:
      megablast -d bs -i u00096.fasta -D 2 -e 10.0 -o mblast_trna.txt
    4. Поиск с discontiguous MegaBLAST:
      megablast -d bs -i u00096.fasta -o dcmblast_trna.txt -e 10.0 -D 2 -N 1 -t 21 -W 11

      Объяснение выбора параметров: -t=21 - увеличение параметра -t приводит к уменьшению числа находок, в т.ч. случайных; -N=1 - некодирующий.

    5. Поиск с FASTA (пришлось ответить еще на вопросы: файл вывода; сколько находок нужно показать; показать ли больше; отображать ли выравнивания; если "да", то сколько):
      fasta34 u00096.fasta bs_genome.fasta 6
    6. Получение записи EMBL (а далее - поиск в ней нужных сведений):
      seqret embl:AL009126 -auto

Сравнение программ: наиболее неудачной для поставленной задачи - поиска гомологов - оказалась программа MegaBLAST. Большой якорь - 28 пар н.о. - делает ее неэффективной для поиска гомологов, а подходит для поиска копий гена (зато ее преимущество - быстрый поиск по БД). Якорь другой программы - программы fasta34 составляет всего 6 пар н.о. Тогда вроде бы чувствительность должна быть существенно выше, и (вроде бы...) лучше быть результаты поиска. Но в моем случае данная программа оказалась малоэффективной: 4 локальных выравнивания обладают едва ли допустимыми для потенциальных гомологов характеристиками. Интересен тот факт, что "выравнивается" только небольшой участок последовательности всего генома, непревышающий указанной длины "библиотечной последовательности" [
22592 residues in 1 library sequences
; это связано с особенностями работы алгоритма]. Наилучшая находка обладает высоким E-value: соответствующая тРНК из Bacillus subtilis оказывается аланиновой, а не фенилаланиновой.
С discontiguous MegaBLAST и BLASTN поиск оказался гораздо более удачным: discontiguous MegaBLAST "нашел" оба гена тРНК, и только их (коррелируя параметры (соответственно, изменяется чувствительность), можно получить различные результаты выдачи; однако среди них оказываются и "случайные" выравнивания); BLASTN - инструмент для поиска некодирующих последовательностей (идентичных) - нашел абсолютные копии (2 гена) + "мелкие" последовательности (малополезные для поставленной задачи).

В целом, "идеальная" программа поиска гомологичных некодирующих последовательностей так и не была обнаружена. Общие выводы делать нельзя - "действовать" надо по ситуации.


©NADEZDA TUKHTUBAEVA,2006