Аннотирование фрагмента генома Klebsiella pneumoniae.


  1. Обоснование выбора инструмента поиска и типа данных, по которым велся поиск похожих генов.

    Метод решения задачи определяется ее целью. Наша – выяснить, кодирует ли определенный фрагмент прокариотного генома что-либо, похожее на какой-нибудь белок из прототипного организма. "Подопытным" микроорганизмом здесь является Klebsiella pneumoniae, а прототипным – ее, как оказалось, близкий родственник Escherichia coli. Первый этап аннотирования – это поиск последовательностей, кодирующих белки. Такая задача выглядит более простой, чем поиск последовательностей, в которых зашифрована, к примеру, транспортная или рибосомная РНК, поскольку любая белок-кодирующая последовательность имеет известные "индикаторы" – старт- и стоп-кодон (есть и другие, но эти самые распространенные и однозначные). Однако не всякая последовательность, начинающаяся со старт- и оканчивающаяся стоп-кодоном, является белковой! Это создает первую трудность при поиске. Вторая связана с тем, что мы можем, не имея экспериментальных данных, только сравнить последовательности из исследуемого и прототипного организмов, и, на основани такого сравнения сказать, какую функцию вероятно выполняет изучаемый участок нуклеотидной последовательности (кодирует, не кодирует, что кодирует...).

    При этом возникает вопрос: последовательности какого типа сравнивать удобнее? Думается, что аминокислотные, потому что существует множество трудностей со сравнением (иначе, с выравниванием) нуклеотидных последовательностей. Данные трудности связаны с проблемой вырожденности генетического кода, большой длиной нуклеотидных последовательностей по сравнению с белковыми, малым числом разных элементов и т.п. Все эти недостаки были рассмотрены при выполнении предыдущих заданий. Как мы помним, нуклеотидное выравнивание может продуктивно использоваться лишь при поиске очень близких или одинаковых последовательностей (программа BLASTN). А настоящая задача скорей напоминает задачу поиска гомологов. Преимущество изучения в нашем случае аминокислотных последовательностей очевидно.

    Известно, что с поиском лучших выравниваний белковых последовательностей работает несколько изученных нами программ. Имеются в виду программы пакета BLAST (то, что будем пользоваться одной из них, однозначно. Найти в геноме последовательности, сходные с изучаемой, не имея никаких данных, кроме последней, легче всего с помощью построения выравниваний, лучшие из которых ищет Basic Local Alignment Search Tool). Таким образом, вариантов выбора у нас несколько: TBLASTN, BLASTP и BLASTX. Первый и последний не подходят, поскольку данные программы в процессе своей работы транслируют последовательности пробы и/или базы в шести рамках. Это служит для того, чтобы не "потерять" данные, которые могут быть закодированы в одной из трех рамок считывания и в том или ином направлении. Но в нашем случае это ИЗЛИШНЕ. Потому что в качестве объектов мы имеем ORF (open reading frames) – открытые рамки считывания. Это определенные участки последовательности, начинающиеся со старт- и оканчивающиеся стоп-кодоном, внутри которых других стоп-кодонов нет. Команда getorf "сама" нашла для нас все имеющиеся открытые рамки заданной длины, располагающиеся на нужных цепях. То есть здесь уже нет той неопределенности, во избежание которой существует "уловка" транслирования в шести рамках. Подобная процедура будет бесполезна для нас и может привести к большому уровню "шума" в результатах, так как будет проводиться поиск по заведомо нефункционирующим рамкам, и какие-то сходные (кодирующие или некодирующие) последовательности могут быть найдены.

    Кроме того, BLASTP гораздо более функционален в плане непосредственно аннотирования. Он сразу находит сходные последовательности белков, то есть соответствующие нуклеотидные последовательности белок-кодирующие, и нам про них уже многое известно. Таким образом, решается большая часть задачи. А то, что находит TBLASTN (например) – участки нуклеотидных последовательностей – гораздо менее удобно для аннотации. Во-первых, неясно, что они кодируют, и кодируют ли вообще, во вторых, узнать это проблематично, даже имея запись генома прототипного организма. Можно сказать, что поиск и аннотация с помощью BLASTP, вероятно, отнимут меньше времени и дадут более точные результаты.

    Итак, резюмируем: BLASTP выбран для поиска последовательностей заданного фрагмента, кодирующих что-либо, похожее на какой-то белок из прототипного организма, потому что он

    • Решает задачу наиболее "близко к тексту" задания
    • Дает более конкретные результаты
    • Более функционален при аннотировании.

  2. Что было сделано для получения скрипта и отчетной книги Excel.

    Кратко просуммируем проделанные действия и использованные команды:

    1) Получение полного (если считать, что записи обо всех белках E.coli есть в Swiss-Prot) протеома кишечной палочки в виде файла в fasta-формате для создания базы поиска.

    seqret sw:*_ECOLI -auto

    2) Создание индексных файлов для поиска по аминокислотным последовательностям полученного протеома.

    formatdb -i proteom.fasta -p T -n ep

    Обратим вниманиие на параметр -p (тип данных), имеющий в нашем случае значение T – "аминокислоты" (индексный файл будет содержать информацию о распределении всевозможных троек аминокислот в последовательностях протеома E.coli).

    3) Получение заданного фрагмента последовательности генома Klebsiella pneumoniae.

    seqret kpn_genome.fasta -sask

    На вопросы,заданные программой, ответили соответственно информации о длине и начале предложенного фрагмента.

    4) Получение открытых рамок изучаемого фрагмента.

    getorf -opt

    Показалось более удобным отвечать на вопросы программы, а не вводить параметры сразу. Был использован стандартный бактериальный генетический код (номер выбора 11); минимальная длина открытой рамки – 240 нуклеотидов,максимальная длина (по умолчанию) – миллионн нуклеотидных остатков; ORF представляются как аминокислотные последовательности между старт- и стоп-кодонами. Getorf по умолчанию выдает файл с расширением orf, но для нашей работы удобнее сохранить его fasta-формате (orfs.fasta).

    5) Создание отчетного документа Excel, в котором суммирована информация, позволяющая аннотировать заданный фрагмент. Для этого нам нужны такие характеристики ORF: название; начало, конец во фрагменте; направление; количество похожих последовательностей E.coli, найденных BLASTP. Большую часть информации (подчеркнуто) можно получить из документа с записями ORF с помощью команды grep.Заметили, что строки документа, содержащие необходимую информацию, имеют общий элемент (часть названия всех ORF однотипна – KPN2Jun2003).

    grep KPN2Jun2003 orfs.fasta > orfs.txt

    Полученный документ импортировали в Excel.

    6) Создание скрипта, позволяющего подсчитать количество находок, сделанных BLASTP в протеоме E.coli для каждой исследуемой ORF. Отдельная команда скрипта выглядит так:

    seqret orfs.fasta:KPN2Jun2003_x stdout |blastall -p blastp -o stdout -e 0.001 -d ep |grep -c ">" 

    где x принимает значения от одного до двадцати восьми.Эта команда представляет собой двойной конвейер. Сначала команда seqret выдает нужную последовательность на stdout, откуда blastall может получать данные для работы. В этих результатах grep ищет строки, содержащие знак ">" (пришлось в тексте скрипта "защитить" кавычками, так как это спецсимвол bash – см.практикум по UNIX). Выбрали такой знак, потому что с него начинаются строки, содержащие информацию о находках BLASTP, и одной находке соответствует только одна стрелка. Полученный скрипт с помощью chmod сделали исполняемым (chmod +x script.txt), и при запуске перенаправили выход в файл (./my.script > count.txt), откуда импортировали в Excel.

  3. Результаты.

    С помощью вышеописанных действий получили таблицу Excel, в которой содержится информация для начального аннотирования. Видно, что большая часть трансляций открытых рамок не нашла ни одной своей пары в протеоме E.coli. Только для четырех из 28-ми найдены выравнивания. Последние во всех случаях "имеются в избытке": от трех до семи выравниваний. Получим результитирующие документы BLASTP для каждого из четырех случаев, и рассмотрим их. Видно, что ни в почти ни в одном нельзя выделить однозначно самое лучшее выравнивание, только группу таких (e-value повышается плавно от находки к находке). Разберем один пример (остальные похожи).

    Трансляция 21-ой ORF нашего фрагмента "выровнялась" с семью последовательностями. Наиболее значимы из них три (порядок e-value от – 104 до – 83). Сразу (по ID и DE) видно сходство между этими белками. Все они являются однотипными компонентами фосфотрансферазной системы (PTS-системы) и обеспечивает трансмембранный транспорт моносахаридов и перенос на них фосфатной группы с фосфорилированных аминокислот (фосфотрансферазную реакцию). Вероятно, 21-я ORF нашего фрагмента, кодирует белок той же системы, белок с похожими функциями. Чтобы разобраться, сделаем выравнивание найденных трех последовательностей и трансляции 21-й рамки. Видно, что все они схожи примерно в одинаковой степени (только последовательность PTW3C_ECOLI имеет длинный "хвост", отсутствующий у других). Как видно из выравнивания, трансляция 21-ой рамки не является сходной с какой-то последовательностью из трех гораздо больше, чем с остальными. Думается, следует аннотировать этот участок как вероятно кодирующий фермент PTS-системы, но с осторожностью проводить гомологию между его трансляцией и одним из трех близких белков E.coli. Для последующего сравнения нужно определить один белок, ген которого соответствует в геноме E.coli исследуемой рамке. Формально выберем последовательность, лучшую по e-value и весу выравнивания (PTGCB_ECOLI), однако хочется повторить, что лучше сопоставлять трансляцию нашей рамки с ферментами PTS-системы в общем, чем с одной какой-то последовательностью, поскольку у нас мало информации.

    Похожая ситуация с другими находками. Двадцать шестая рамка, возможно, кодирует регулятор транскрипции HTH-типа (т.е, содержащий мотив сверхвторичной структуры "спираль-поворот-спираль", взаимодействующий с ДНК), так как среди находок несколько таких белков, лучший по e-value – YFET_ECOLI. Двадцать седьмая – 3-кето-L-гулонат-6-фосфат-декарбоксилазу (лучшая находка ULAD_ECOLI). Менее понятно с девятой рамкой. Лучшие находки – два гипотетических протеина, yabN и ybaE. Про их функцию ничего не известно, однако в поле CC документа Swiss-Prot, описывающего второй белок, есть информация об его схожести с первым. То есть опять мы имеем дело с похожестью трансляции рамки на группу белков, сходных между собой. Выберем как сответствующий белок yabN (ID YABN_ECOLI) – у него ниже на десять порядков e-value.

    Еще раз повторимся насчет того, что выбор белков (YFET_ECOLI, PTGCB_ECOLI и др.) скорее всего не отражает действительности, то есть какого-то точного соответствия между определенной последовательностью E.coli и трансляцией ORF K.pneumoniae провести нельзя. Наши находки дали прежде всего информацию, позволяющую отнести гипотетический белок к какому-то типу, в идеале –информацию о возможной функции гипотетического белка. Об этом говорит ситуация с множественностью похожих находок для каждой значимой рамки.


    Составим схему аннотируемого участка, на которой отображены взаимное положение, размер и направление гипотетических генов, первично аннотированных с помощью BLASTP. Эти гены – открытые рамки, для трансляций которых нашлись схожие последовательности генома E.coli. Для сравнения составим также схему расположения этих последовательностей в геноме кишечной палочки. Схемы можно увидеть здесь (из-за большой длины и создаваемого ею неудобства чтения они вынесены на отдельную страницу).

    Сравним взаимное расположение найденных генов в изучаемом фрагменте и соответствующих генов в геноме E.coli. К сожалению, мы не можем знать, соответствует ли главная цепь генома Klebsiella pneumoniae главной цепи генома кишечной палочки. Поэтому нельзя уточнить, о чем говорит факт расположения последовательностей клебсиеллы и соответствующих последовательностей E.coli на разных по смыслу цепях – о сходстве или различии расположений. К примеру, у кишечной палочки ген yabN находится на комплементарной цепи, а соответствующий ему ген 9 K.pneumoniae – на главной. Одно явное сходство заключается в том, что и гены, кодирующие у кишечной палочки белки PTGCB_ECOLI и ULAD_ECOLI и соответствующие гены клебсиеллы расположены на одной цепи. Кроме того, ни в изучаемом фрагменте, ни в соответствующем участке генома E.coli нет перекрывания исследуемых генов (об этом подробнее см. ниже). Однако Величина фрагментов сильно различается (10000 н.п. исследуемого фрагмента сравниваются с приблизительно 434500 н.п участка генома E.coli). Да и вообще, порядки расположения кажутся достаточно различными

    Что можно сказать, исходя из результатов сравнения? Сначала бросаются в глаза прежде всего различия в расположении генов у того и другого микроорганизмов, и это приводят к трем мыслям: во-первых, возможно, что расположение сходных генов у сравниваемых бактерий различно; во-вторых, вероятно, последовательности клебсиеллы неверно аннотированы, из-за чего наблюдается различие расположения; либо вообще неправомерно сравнивать столь разные (по величине и степени аннотированности) участки геномов.

    Однако, если всмотреться в две схемы внимательней и немного "пофантазировать", можно представить себе такую перестановку, что расположения станут одинаковыми, и будут различаться лишь расстояния между генами. Для этого нужно, во-первых, "вырезать" последовательность гена KPN2Jun2003_26 клебсиеллы, "перевернуть" ее и "вставить" в противоположную цепь без сдвига вправо или влево. Тогда схемы станут почти идентичными! Разница только в "статусе" цепей, однако, повторимся, что нам неизвестно, соответствует ли главная цепь генома Klebsiella pneumoniae главной цепи генома кишечной палочки. С одной строны, идея кажется утопической, но, с другой, ведь существуют так называемые "прыгающие гены", особенно хорошо изученные именно у прокариот. Если учесть это, можно предположить, что геномы сходны (при условии верного аннотирования, конечно!), но в одном из них в процессе эволюции произошла и закрепилась вышеописанная перестановка.

    Таким образом, можно предположить две версии объяснения различий и сходств взаимного расположения генов у кишечной палочки и клебсиеллы. Для выбора одной из них нужны дополнительные исследования. Ведь аргументы в защиту любой можно приводить достаточно долго. Например, "за" первую гипотезу тот факт, что фрагменты различаются по величине более чем в сорок раз. Но в пользу гипотезы "прыгающего гена" – близкое родство исследуемых организмов и научные данные о возможностях эволюции прокариот с помощью "прыгающих" генетических элементов (к примеру, книга Коничева А.С. "Молекулярная биология").


    Выше уже был замечен факт отсутствия перекрывания каких-нибудь двух генов в исследуемом фрагменте. Под перекрыванием имеется в виду тот факт, что в дуплексе ДНК обе цепи в каком-то участке являются кодирующими, и с каждой стороны с них считывается информация. В нашем случае ни один сегмент в исследуемом фрагменте не обладает таким свойством, напоминая тем самым соответствующий больший фрагмент генома E.coli.


    В заключение можно сказать, что при выполнении заданий мы поняли, какой это труд – аннотировать геномы, и, в то же время, как безумно интересно это занятие!



©Ганчарова Ольга