Mega-Blast и FASTA


  1. Определение транспортной РНК, которая участвовала в присоединении четвертого аминокислотного остатка к растущей цепи белка AAT_ECOLI.

    Четвертым остатком цепи аспартатаминотрансферазы E.coli является аспарагин, что легко определить, взглянув на последовательность. Следует заметить, что в нашем случае возможны два варианта выбора: игнорировать первый метионин, или обращать на него внимание при счете (известно, что старт-кодон AU(T)G – одновременно кодон для метионина). Но так как мы не знаем о функциональной нагрузке данного остатка(отщепляется ли он посттрансляционно, или необходим для выполнения каких-либо функций), решено считать, начиная с него. Кроме того, все проведенные ранее исследования учитывали первый метионин.

    В одном из документов, содержащих информацию о гене, кодирующем AAT_ECOLI, нашли соответствующий кодон. Это кодон 5'-AAC-3' (далее полярность цепей при записи кодонов по умолчанию от 5' к 3' концу). Воспользовавшись таблицей стандартного генетического кода, узнали, что аспарагин может кодироваться не только таким триплетом, но и триплетом AAU(T). Другими словами, вырожденной в данном случае, как и в большинстве других, является третья позиция кодона.

    Анализируя полученные сведения, можно сказать, что, во-первых, "идеальный антикодон" тРНК, которая могла бы участвовать в присоединении аспарагина к цепи AAT_ECOLI при синтезе, – GUU. Понятно, что первая позиция вырождена. Во-вторых, гипотетически для аспарагина у кишечной палочки должно быть две изоакцепторных т-РНК: узнающая кодон AAC с помощью антикодона GUU и узнающая AAU с помощью AUU. Однако известно, что в клетке на самом деле типов тРНК не столько, сколько возможных смысловых кодонов, а меньше. Чтобы узнать, подтверждается ли это в нашем случае, обратились к EMBL.

    С помощью команды UNIX grep нашли в документе EMBL, содержащем информацию о полном геноме E.coli, те строки, которые включают название аспарагина и относятся к описанию тРНК. Команда (вместе с перенаправлением stdout на конвейер) для поика записей об аспарагиновых т-РНК выглядит так:
    grep codon.*asparagine ecoli.embl |more

    В результате нашли четыре записи (см. последнюю строку таблицы 1). Из найденного подходят все 4 случая. Антикодон подходит абсолютно (идентичен "идеальному"), а вот кодон, узнаваемый данной т-РНК – AAY – "включает в себя" два кодона: AAT и AAC (поскольку Y – принятое обозначение пиримидинов, pYrimidines).То есть в нашем случае такая тРНК подходит, но и кодон AAT она узнает верно. Таким образом, мы убедились, что у кишечной палочки аспарагиновая т-РНК "одна на все случаи жизни", а не две – по одной на каждый возможный кодон, как можно было предполагать.

    Аспарагин-тРНК E.coli однотипна, но закодирована она в геноме четырежды. Все эти четыре гена идентичны, что было установлено с помощью построения множественного выравнивания последовательностей, извлеченных командой seqret из полного генома. Поэтому для дальнейшего исследования выбор осуществлялся произвольно.

    Результаты всех проведенных исследований приведены в таблице 1.

    Таблица 1. Результаты определения нужной аспарагин-тРНК

    Поиск аспарагин-т-РНК: теория и практика
     Аминокислотный остаток в 4-ой позиции белка AAT_ECOLI N (аспарагин)
      Соответствующий кодон в гене aspC 5'-AAC-3'
      Идеальный антикодон 5'-GUU-3'
      Сколько можно было бы ожидать разных тРНК для аспарагинового остатка, если опираться на генетический код? 2
      Сколько разных тРНК для остатка аспарагина аннотировано в геноме кишечной палочки? 1
    Характеристика выбранной для дальнейшего изучения тРНК:
          имя гена asnT
          локализация гена в геноме Локус b1977; остатки 2042573..2042648 на главной цепи
          распознаваемый кодон AAY
          антикодон GUU

    Результат поиска всех аспарагиновых тРНК у Escherichia coli K-12

    FT                   /note="codons recognized: AAY; anticodon: GUU asparagine
    FT                   /note="codons recognized: AAY; anticodon: GUU asparagine
    FT                   /note="codons recognized: AAY; anticodon: GUU asparagine
    FT                   /note="codons recognized: AAY; anticodon: GUU asparagine
    

  2. Поиск гомологичных тРНК в родственном геноме.

    В качестве родственного E.coli организма рассмотрим сенную палочку Bacillus subtilis. Проведем по геному данной бактерии поиск аспарагиновой тРНК, выбранной при выполнении прошлого задания. Прежде всего создадим индексные файлы (базовое имя bs), содержащие информацию об интересующей нас геномной последовательности. Подробнее об индексных файлах см. здесь.

    Для поиска используем четыре разных программы: FASTA, MegaBLAST, discontiguous MegaBLAST и уже знакомый BLASTN. Результаты поиска занесем в таблицу 2.

    Таблица 2. Результаты поиска гомологов тРНК в геноме B.subtilis с помощью разных программ.

    Программа FASTA BLASTN MegaBLAST discontiguous MegaBLAST
    Длина якоря (нуклеотиды) 6 11 28 11*
    Результаты поиска Найдено четыре последовательности, но значима из них всего одна Находка одна, с высоким e-value. В ее пределах найдено множество маленьких участков, разбросанных по всему геному. Думается, эти результаты не являются сколько-нибудь значимыми. Ничего не найдено Ничего не найдено
    Число находок с E-value < 0,01 1 0
    Характеристика лучшей находки:
          E-value 4.4*10–8 0.21
          длина выравнивания 65** Суммарная длина всех участков выравнивания – 182***
          вес выравнивания 151 30
          координаты в геноме 11470..11534, главная цепь** Не представляется возможным привести значение, поскольку выравнивания многочисленны, а найденные небольшие последовательности расположены по всему исследуемому геному
    Аннотация лучшей находки по записи БД Genome Reviews****
          имя гена trnO-Ile Так найденные последовательности разбросаны по всему геному (то есть можно сказать, что находкой является весь геном),не имеет смысла описывать какой-либо ген, поскольку почти каждый из найденных участков последовательностей, судя по координатам, расположен в своем гене
          это тРНК? Да
          это тоже аспарагиновая тРНК? Нет, это изолейциновая тРНК

    *Примечание1: может быть и равным 12, положение дел от этого не меняется (хотя бы в нашем случае).

    **Примечание 2: Даны длина и координаты непосредственно выравнивания, в качестве же находки приводится более длинная последовательность (180 н.п., координаты 11440-11620) с центральным участком которой и производится выравнивание последоваельности изучаемой тРНК.

    ***Примечание3: Легко заметить, что суммарная длина всех небольших участков удачных выравниваний более чем вдвое превосходит длину последовательности аспарагин-тРНК! Это означает, что результаты имеют беспорядочный характер. Кроме того, данный факт отражает алгоритм работы BLASTN. Понятно, что при совпадении якоря длиной в 11 нуклеотидов (взятого из любого участка последовательности нашей тРНК, так как индексный файл содержит всевозможные якоря длины 11) с сегментом генома сенной палочки выравнивание продолжалось в обе стороны, пока не обрывалось, и такие отрывочные результаты приводились нам. Подтверждением может служить длина участков выравниваний: нет ни одного короче 11 нуклеотидов. Самое меньшее – 12: это может означать, что те выравнивания, где совпадал только якорь, а ни справа, ни слева не было совпадений, все же не приведены. Это не зависит от e-value: при задействовании параметра -e и задании e-value равным 50, получили новый результат, где участков еще больше, но среди них по-прежнему нет выравнивания длиной 11.

    ****Примечание 4: В базе данных EMBL нашли только отдельные участки полного генома сенной палочки, работать ними неудобно. К тому же в качестве базы для поиска нам давалась совершенно определенная запись с AC AL009126_GR. Это запись не БД EMBL, а другой базы – Genome Reviews, где содержатся курируемые (то есть такие, за содержанием которых строго следят и постоянно его совершенствуют, а значит, хорошо аннотированные) записи полных геномов. К этой базе мы и обратились с помощью SRS за искомой записью .

    Команды UNIX, которые использовались при поиске:

    1. С помощью FASTA

      fasta34

      Показалось более удобным не вводить часть параметров сразу, часть – потом, а отвечать на вопросы программы о значениях разных параметров (длины якоря, количества демонстрируемых результатов и выравниваний и др.). Еще только на стадии написания команд видно одно из отличий FASTA от описанных ниже BLASTN и MEGABLAST: для работы последних необходим индексный файл, а FASTA обходится без него, требуя в качестве базы для поиска непосредственно fasta-файл с геномом.

    2. С помощью BLASTN

      blastall -p blastn -d bs -i tRNA.fasta -o blastn.txt

      Здесь tRNA.fasta и blastn.txt – имена файла с искомой последовательностью и файла с результатами поиска соответственно , а bs – базовое имя индексных файлов.

    3. С помощью MegaBLAST.

      megablast -d bs -i tRNA.fasta -o megablast.txt -D 2

      По сравнению с командой для BLASTN-поиска добавился только параметр -D. При разных его значениях (от 1-го до 4-х) меняется название файла с результатами поиска. Значение 2 было выбрано, потому что ему соответствует знакомый формат вывода (BLAST-формат). На самом деле, при отсутствии каких-либо результатов все равно, какой формат выбирать. Однако были перепробованы все варианты значения -D и рассмотрены соответствующие форматы. К сожалению при данном поиске ничего не было найдено, и полноценное сравнение форматов невозможно.

      Кроме того, было испробовано значение L параметра -F – фильтрация областей низкой сложности (low complexity), знакомая нам по работе с BLASTP функция. Однако все по той же причине (отсутствие "хитов") никаких различий уловить нельзя.

    4. C помощью discontiguous MegaBlast

      megablast -t 16 -W 11 -N 1 -i tRNA.fasta -o dis16_1.fasta -D 2

      Из сравнения команд, запускающих обычную версию MegaBlast и discontiguous MegaBlast, видно, что они отличаются только параметрами, среди которых для второго есть особые (дополнительные). Это -t и -N. Первый задает "discontiguous word template" – длину паттерна (точнее, один из трех шаблонов паттерна разной длины). Понятно, что чем меньше эта длина, тем чувствительнее поиск. В каком-то другом случае это было бы полезно, но идее discontiguous MegaBlast (и Mega_Blast вообще) не соответствует. Для этих программ не важна чувствительность, важна скорость. И уменьшение длины паттерна может привести к росту числа нежелательных (незначимых) находок. Однако в нашем случае, какое бы из трех возможных значений -t (16, 18, 21) ни выбрали, результаты остаются одинаково неутешительными. Это, к сожалению, мешает рассмотреть различия поиска по разным паттернам на практике.

      Параметр -N задает тип паттерна (кодирующий, некодирующий, или оба типа) Так как наша последовательность кодирующей не является, выбрали второй вариант (значение параметра 1). При использовании такого паттерна MegaBlast ищет чаще всего по среднему положению триплета, а не по первым двум, как в случае кодирующего, оставляющего без внимания вырожденную третью позицию. Кроме того, для работы discontiguous версии MegaBlast необходима определенная длина якоря – 11 или 12 нуклеотидов (значения параметра -W). Мы выбрали первое значение, хотя и со вторым результаты не изменяются.

    Обсуждение. Сравнение эффективности разных программ поиска нуклеотидных последовательностей.

    Результаты проведенного поиска неутешительны. Конечно, первое, что можно предложить на роль гомолога для аспарагиновой т-РНК одного организма – аспарагиновую т-РНК другого организма. Однако единственная значимая находка (которую нам обеспечила FASTA) – это изолейциновая тРНК. Остальные программы либо ничего не нашли (варианты MegaBlast), либо нашли совершенно незначимые маленькие участки последовательностей, разбросанные по всему геному (BLASTN). Рассмотрим каждую программу по отдельности, а потом сравним и выберем наиболее эффективную для поиска некодирующих гомологичных последовательностей.


    Итак, FASTA. Эта программа оказалась наиболее чувствительной из всех. Только с ее помощью удалось найти конкретную значимую последовательность. Хотя здесь есть непонятный момент: вместо того, чтобы привести только выравнивание или хотя бы ген, внутри которого содержится найденный участок, она приводит еще и отрезки соседних последовательностей (как генов, так и вообще неаннотированных), увеличивая размер находки. Объяснение данному феномену найти трудно, даже представляя механизм работы FASTA. Поэтому далее будем рассматривать только последовательность гена, внутри которого лежит непосредственно выравнивание. К сожалению, эта последовательность кодирует изолейциновую тРНК. Сразу возникает несколько вопросов: является ли находка гомологом, и почему не найдены предполагаемые гомологи – аспарагин-тРНК сенной палочки? На первый вопрос ответить сложно: мы еще не знаем, как проверять гомологичность некодируемых последовательностей, кроме как по выравниванию.

    Найдем с помощью все тех же команд UNIX grep и seqret в документе с полным геномом B.subtilis гены, кодирующие аспарагин-тРНК. Это четыре похожие последовательности. Сделаем выравнивание с нашей тРНК (см здесь). Последовательности довольно близки, почему же их не нашла FASTA? Чтобы убедиться в ее способности (или неспособности) их найти, проделаем опыт: составим "мини-базу поиска" из всех последовательностей для аспарагин-тРНК B.subtilis, гена изолейцин-тРНК и "длинной" (включающей участки соседних генов) находки FASTA. Поищем нашу последовательность в ней. Результаты неожиданные – найдены все аспарагиновые тРНК, и изолейциновая тоже! Значит, FASTA вполне способна находить гомологи небольших некодирующих последовательностей, но в маленьких базах данных (других отличий, кроме размера между двумя базами не было). Чтобы проверить сделанное предположение, поищем в геноме B.subtilis последовательнось аспарагин-тРНК, извлеченную из самого генома. Результат очень интересен: искомая последовательность не найдена, хотя она, безусловно, в геноме есть. Лучшая находка – опять же, изолейциновая тРНК (возможно, это действительно гомолог аспарагиновым-тРНК кишечной и сенной палочек). Единственное, что можно предложить для объяснения, зная механизм работы FASTA – это малое число "зацепившихся якорей" на нужной диагонали, которая из-за этого в рассмотрение не берется. Однако почему этих якорей может быть мало, не очень понятно.

    BLASTN не справился с задачей совершенно. Найдено множество коротеньких выравниваний немного длиннее якоря. Понятно, что никакой ценности такой результат не несет. BLASTN подходит для поиска некодирующих последовательностей, но не гомологичных, а идентичных (или почти идентичных) искомой. Таких для нашей аспарагин-тРНК в геноме B.subtilis нет. Чтобы убедиться в том, что BLAST в принципе не может найти аспарагин-тРНК сенной палочки, взглянем на упоминавшееся раньше выравнивание. Среди совпадающих областей нет ни одной с длиной, равной или большей 11. Понятно, что якорь длиной 11 здесь прикрепиться никак не может.

    И уж тем более якорь MegaBlast, состоящий из 28 нуклеотидов. Видимо, в сравниваемых последовательностях (тРНК и геноме) нет столь протяженных совпадающих участков. Поэтому MegaBlast ничего и не нашел, да и сомнительно, что мог найти. Ведь в данной ситуации он подходит еще меньше, чем BLASTN, так как изначально создавался для поиска точных копий последовательностей и даже самой примитивной матрицей замен не обладает.

    У discontiguous версии MegaBlast такой матрицы тоже нет, но якорь меньше и механизм поиска несколько отличается (задействуются паттерны, позволяющие не проверять каждый остаток на предмет сходства, что делает его более быстрым). Из того, что и такой MegaBlast ничего не нашел, делаем вывод о его небольшой пригодности к поиску гомологичных некодирующих последовательностей. А вот идентичные или очень похожие последовательности он находит – был проведен поиск последовательности аспарагин-тРНК сенной палочки в геноме последней. "Нашлись" все четыре гена тРНК (e-value 3*10–37), и, кроме того, множество мелких незначимых совпадающих участков. А если провести такой же поиск с помощью "просто" MegaBlast, найдутся четыре нужных гена, и только они. Таким образом, эта программа менее чувствительна, чем discontiguous MegaBlast, однако результаты поиска с помощью последнего содержат некоторый ненужный при поиске точных копий "шум".


    На основании результатов данно поиска сделаем выводы об эффективности сравниваемых программ. Чем нужно пользоваться, если мы хотим найти гомолог некодирующей последовательности? Наверное, больше всего подходит FASTA, хотя и здесь есть проблема – проблема "больших баз" (см. выше). BLASTN, MegaBlast и discontiguous MegaBlast не подходят. Потому что ни тот, ни другой, ни третий не предполагают поиска гомологов любых последовательностей. Низкая чувствительность, большие длины якорей (особенно у MegaBlast), отсутствие хороших (или вообще каких-либо) матриц замен не позволяют находить изменившиеся в результате эволюционного процесса последовательности. FASTA имеет меньший якорь и несколько иной алгоритм, что, вероятно, дает ей возможность находить более далекие последовательности. MegaBlast и discontiguous MegaBlast и вовсе созданы для поиска идентичных поседовательностей; детали их механизма упрощены (28 нуклеотидов якоря) или изменены ("бинарные" паттерны поиска) специально для этой задачи. Получается, что среди изученных нет программы, идеальной для поиска гомологов некодирующих нуклеотидных последовательностей.



©Ганчарова Ольга