Программы пакета BLAST для работы с нуклеотидными последовательностями

Создание индексных файлов для поиска по отдельным геномам.
Для работы с локальными версиями программ пакета BLAST создали индексные файлы, позволяющие осуществлять поиск по геномам следующих организмов:

Холерный вибрион (Vibrio cholerae),
Синегнойная палочка (Pseudomonas aeruginosa),
Pasteurella multocida .
Для этого воспользовались помощью программы formatdb. В каждом случае из трех она создает три файла с одним и тем же именем (базовым) и расширениями nhr, nin и nsq. Рассмотрели каждый из этих файлов и убедились, что первый содержит записанные в строку данные полей ID и DE документа EMBL, по которому создавались файлы. Кроме этого, далее записана та же информация, но "другими словами" – несколько разных вариантов. Вероятно, это необходимо для поиска к примеру, по ID (вспоминается из упражнений с BLASTP и PSI-BLAST, что такая возможность имеется.) Остальные два файла содержат данные в кодировке, не позволяющей ознакомиться с содержанием. Можно точно сказать только то, что файл с расширением nsq по размеру гораздо больше других. Думается именно в нем и содержится таблица встречаемости всевозможных наборов нуклеотидов, к которой обращается BLAST при поиске.

Поиск генов, кодирующих белки, похожие на AAT_ECOLI, в неаннотированных геномах.

Для поиска генов, кодирующих белки, похожие на аспартатаминотрансферазу, из пакета BLAST выбрали программу TBLASTN. Из четырех возможных (так или иначе имеющих дело с нуклеотидными последовательностями), это единственный инструмент поиска, в качестве начальных данных принимающий белковую последовательноcть. Данная программа служит для поиска гомологов белков в неаннотированных геномах, что в точности соответствует нашей цели.

Поиск был осуществлен с помощью локальной версии TBLASTN на сервере kodomo-count.cmm.msu.ru. Работа программы была запущена из командной строки командой blastall с соответствующими параметрами. Здесь приведена команда для работы с геномом V.cholerae (для остальных – аналогично):

blastall -p tblastn -d vc -i AAT_ECOLI.fasta -o vc_AAT.txt

В результате получили три файла (по количеству проведенных поисков), содержащих необходимые нам данные. Последние суммированы в нижеприведенной таблице (части 1 и 2):

Таблица 1. Поиск с помощью TBLASTN.

Поиск гомологов AAT_ECOLI Геном Vibrio cholerae Геном Pasteurella multocida Геном Pseudomonas aeruginosa

1. Общая характеристика

Число находок с Е-value<0,01
2 1 3

Общее число находок
5 4 11

2. Характеристика лучшей находки:

E-value находки 10 ^–146 10 ^–144 10 ^–107

Координаты выравнивания
в записи генома complement(207..1394)* 102..1289 131..1318

AC соответствующей записи EMBL AE004209 AE006099 AE004738

Название белка, "кодируемого" данной CDS** Аспартатаминотрансфераза aspC Гипотетическая трансфераза аминокислот

Координаты CDS в записи EMBL complement(204..1445) 102..1292 125..1321

AC UniProt в записи EMBL Q9KSG3 Q9CN25 P72173

3. Итоги поиска по трем геномам сразу

"Новое" значение e-value 10 ^–145 10 ^–143 10 ^–107

Число находок из данного генома с Е-value<0,01 2 1 2

Общее число находок из данного генома 2 3 7

*Примечание1: Для наглядности записано как в EMBL (с использованием "complement"). Иначе – 1394..207.
**Примечание2: Данные позиции "product" поля FT соответствующего документа EMBL.

Обсуждение результатов

Обратимся к результатам поиска с точки зрения его цели. Достигнута ли она? Есть ли среди результатов возможные гомологи AAT_ECOLI? Действуя из логики, что если для находки существует вероятность оказаться подходящей нам (т.е. кодирующей гомолог), то для лучшей находки она максимальна, рассмотрим характеристики лучшей находки в каждом из случаев (таблица 1, часть 2).

Из результатов поиска, приведенных во второй части таблицы, ясно, что найденные последовательности "имеют смысл", то есть являются кодирующими (или частями кодирующих последовательностей). Ведь крайние нуклеотиды начала и конца выравнивания лежат внутри какой-либо CDS исследуемого генома. К примеру, для поиска по геному синегнойной палочки Pseudomonas aeruginosa, найденная лучшая последовательность (131 – 1318-ый нуклеотиды) лежит в пределах CDS с координатами 125..1321. То же и для остальных случаев (кроме V.cholerae, но там "вылезают" за пределы CDS всего три нуклеотида, что не принципиально), причем для холерного вибриона (где кодирующая последовательность находится на цепи, комплементарной главной), в выравнивании наблюдается верная полярность.

Каждому результату соответствует запись EMBL, Accession number которой дается среди прочей информации в результирующем документе. Найдя необходимый документ EMBL по его AC, а в нем – информацию о нужной последовательности (Subject в выравнивании), можно узнать многое, в том числе AC UniProt белка, ею кодируемого, и его название. Указанные в таблице названия уже дают пищу для размышлений: два из них схожи с названием AAT_ECOLI, третье – гена, ее кодирующего (aspC). Но по названию сложно судить о возможной гомологичности, это лишь косвенные данные, поэтому более информативными окажутся записи UniProt. Они были найдены с помощью SRS, и документы, описывающие их, рассмотрены на предмет схожести с AAT_ECOLI. Сходство потрясающее! Одинаковые четвертичная структура, каталитическая активность, кофактор, локализация в клетке – те же, что у AAT_ECOLI (подробнее об этих ее свойствах здесь). Поля DE в документах несут схожую информацию. Кроме того, один из белков (AAT_PSEAE) знаком нам по предыдущим заданиям как возможный гомолог аспартатаминотрансферазы E.coli.

Чтобы окончательно убедиться в гомологичности белков, кодируемых найденными с помощью TBLASTN нуклеотидными последовательностями, и AAT_ECOLI, воспользуемся возможностями Pfam. Изучив доменную структуру белков из Vibrio cholerae, Pasteurella multocida и Pseudomonas aeruginosa и сравнив со структурой аспартатаминотрансферазы, убедимся, что они идентичны: каждый из четырех белков состоит из одного домена, в который входят почти все остатки. Называется этот общий для всех домен Aminotran_1_2, он изучался нами в предыдущем семестре.

Итак, можно сказать, что программа TBLASTN нашла последовательности, кодирующие белки, гомологичные данному. Становятся понятными очень маленькое знаение e-value и высокий вес наилучших выравниваний в каждом случае.

Поиск последовательностей, кодирующих гомологи AAT_ECOLI, сразу в нескольких геномах.
Создали индексные файлы, содержащие информацию о всех трех исследуемых геномах (см. пункт 1) и провели по ним поиск с прежней целью, используя программу TBLASTN. Результаты приведены в третьей части таблицы 1.
В основном находки, конечно, схожи с результатами предыдущего поиска, поэтому приведены только различающиеся величины. Как видно из таблицы, количество найденных выравниваний сократилось от двадцати до двенадцати. Число значимых находок уменьшилось только в одном из случаев (Pseudomonas aeruginosa). Но это не значит, что находка "пропала"! Просто ее e-value уменьшилось настолько, что она вышла из разряда значимых. Поняв это, просто предположить, что и общее число находок уменьшилось по той же причине: "порог" e-value равен по умолчанию десяти, и, если e-value каких-то находок увеличится, они вовсе могут исчезнуть из нашего обозрения. Подтверждением этому служит такой пример: среди находок в геноме V.cholerae есть две с e-value 7.1, а в геноме Pseudomonas aeruginosa – три с e-value 9.1. Ни одна из них не появляется при поиске по всем геномам сразу. Возрастание e-value при таком поиске достаточно сильное: из таблицы 2 видно, что в некоторых случаях значение может повышаться на порядки (для последовательностей, лучших при поиске по отдельным геномам V.cholerae и P. multocida. К слову, при поиске по трем геномам они так и остались наилучшими).
Итак, главное различие между результатами двух поисков (по отдельным геномам и в совокупности) – повышение e-value в последнем случае. Чтобы объяснить данный феномен, необходимо знать природу e-value. Это число выравниваний с тем же весом, что данное, сделанных при поиске по базе данных случайных последовательностей. Последняя имеет тот же аминокислотный состав, что и "настоящая" БД, но аминокислоты выстроены в случайном порядке. Понятно, чем больше данных в базе, тем большее число возможных комбинаций, тем выше e-value. В нашем случае в роли БД служат один или три генома. Ясно, что если ищем по всем геномам сразу, e-value повышается. А то, что повышается достаточно сильно, можно связать с особенностями работы TBLASTN. Геномы при поиске с его помощью транслируются в шести рамках, то есть количество последовательностей еще сильнее повышается и возникает гораздо больше комбинаций, что также влияет на увеличение e-value.

Поиск гомологов с помощью программы BLASTN.

Цель настоящего исследования та же, что и предыдущего – найти последовательности, кодирующие белки, гомологичные AAT_ECOLI, в геномах трех патогенных микроорганизмов. Однако способ поиска, начальные данные и, соответственно, инструмент в данном случае отличается. У нас имеется последовательность гена, кодирующего белок, поэтому выбрали программу BLASTN, которая ищет лучшие выравнивания нуклеотидных последовательностей между собой. Поиск вели, как и раньше, с помощью локальной версии программы, которую запускали из командной строки. Общая характеристика и характеристика наиболее значимой находки (с e-value, меньшим одной сотой) приведены ниже.

Таблица 3. Поиск с помощью BLASTN.

Параметры Значения

Характеристика лучшей находки

Accession number AE006099

Название организма Pasteurella multocida

E-value находки 5*10 ^–8

Фрагмент выравнивания приведен здесь

Общая характеристика

Число находок с Е-value<0,01
2
Общее число находок
12

Особенно интересны для нас различия между работой разных программ пакета BLAST. Понимать их нужно, чтобы при необходимости выбрать подходящую программу. Увидеть эти различия можно в результатах работы TBLASTN и BLASTN. Эта пара программ очень хорошо подходит для сравнения, поскольку первая ищет белок-белковые выравнивания транслированных нуклеотидных последовательностей, вторая работает непосредственно с нуклеотид-нуклеотидными выравниваниями.

По этой причине рассмотрим результаты, суммированные в таблице 3 для сравнения с результатами, полученными ранее при работе с TBLASTN.

Значимая находка всего одна, и соответствующий ID нам знаком. Заметно очень высокое e-value. Для той же записи в случае TBLASTN-поиска e-value было гораздо (на 138 порядков!) меньше. Кроме того, одна из находок в геноме V.cholerae, имевшая в предыдущем случае e-value 10 ^–144, теперь обладает значением 0.048, другая (из P.aeruginosa, ранее с e-value 10 ^–107) при BLASTN-поиске вообще не была найдена (т.е. теперь e-value больше десяти). Эти отличия связаны с тем, что нуклеотидов всего 4 , а аминокислот, как известно, 20. Поэтому вероятность случайного совпадения в нуклеотдном выравнивании возрастает впятеро по сравнению с аминокислотным, и это сильно влияет на значение e-value, которое, как известно, рассчитывается с учетом случайных совпадений. Кроме того, нуклеотидные последовательности длиннее белковых, что также вносит вклад в возрастание e-value (о связи его значения и объема базы поиска см. выше)

Однако такие яркие различия видны только между лучшими находками в том и другом случаях. Остальные, в принципе, не отличаются при поиске обоими способами: небольшой вес, высокое e-value. Получается, что в случае с BLASTN разброс между лучшими и худшими находками небольшой, в отличие от TBLASTN, что говорит о меньшей "чувствительности" первой программы. Это понятно: в данном случае тоже существует проблема малого количества нуклеотидов, кроме того, вразумительную и соответствующую действительности матрицу замен нуклетидов составить сложно: как минимум, из общих соображений ясно, что не всякая замена нуклеотида значима (надо помнить о вырожденности генетического кода).

BLASTN выдает как результаты фрагменты выравниваний, не соединенные в одно целое, что означает, что между похожими участками в обеих последовательностях(Query и Subject) находятся участки, не имеющие сколько-нибудь выраженного сходства. Такая прерывистость является еще одним недостатком нуклеотидных выравниваний и возникает из-за вырожденности генетического кода. Ведь, как известно, разительно отличающиеся нуклеотидные последовательности (которые вследствие этого не могут быть "выровнены") могут кодировать идентичные аминокислотные. Поэтому в нашем случае удобнее TBLASTN, который никаких фрагментарных выравниваний не выдает.

Фрагменты выравниваний участков гена AAT_ECOLI с лучшими последовательностями, найденными с помощью BLASTN.

AE006099

Query: 610 aaaggctggttaccgctgtttgacttcgcttaccagggttttgcccgtggtctggaagaagatgc 674
           ||||| ||||||||| | |||||||| |||||||| ||||||||   |||||| |||||||||||
Sbjct: 711 aaaggttggttaccgttatttgactttgcttaccaaggttttgcaaatggtctcgaagaagatgc 775

Query: 724 agttcctactctaaaaactttggcctgtacaacgagcgtgttggcgctt 772
           ||||| || |||||||||||||| || || | |||||| ||||| ||||
Sbjct: 825 agttcttattctaaaaactttggtctttatagcgagcgcgttggtgctt 873

Query: 431 ttcgtgaatacgcttattatgatgcggaaaat 462
           |||||||||||   ||||||||||| ||||||
Sbjct: 532 ttcgtgaataccgctattatgatgcagaaaat 563

Выше мы рассмотрели основные различия программ, работающих с выравниваниями разного вида. Остается еще один важный вопрос, касающийся BLASTN: достигнута ли цель осуществляемого с его помощью поиска? Для TBLASTN уже выяснена возможность нахождения последовательностей, кодирующих гомологи.

Чтобы получить ответ на этот вопрос для BLASTN-поиска, следует в первую очередь отметить вот что. Несмотря на фрагментарность найденных нуклеотидных выравниваний, в расположении их участков есть закономерность. Найденные участки лучшего выравнивания находятся внутри последовательности, кодирующей белок (CDS) – см. таблицу 4. Значит, можно говорить, что в результате поиска найдена кодирующая последовательность. Причем кодирует она не что иное как возможный гомолог белка AAT_ECOLI, в свою очередь CDS для которого была использована как запрос при поиске. Гомологичность белка c ID Q9CN24 и аспартатаминотрансферазы E.coli была исследована выше

Таблица 4.

Параметр Значение для лучшей находки

Координаты выравниваний в записи геномов 711..775
825..873
532..563

Координаты CDS, в пределах которой находятся найденные участки последовательностей 102..1292

Название кодируемого данной CDS белка AspC

AC UniProt того же белка Q9CN24

Итак, с помощью BLASTN возможно находить последовательности, кодирующие гомологи определенных белков, как это было показано только что. Однако надежней пользоваться программами, работающими с белок-белковыми выравниваниями (TBLASTN, к примеру), поскольку особенности нуклеотидных последовательностей (их значительная длина, небольшое число типов элементов, вырожденность генетического кодв) создают трудности в работе с нуклеотидными выравниваниями и особенно в поиске, что было описано выше. При работе с BLASTN можно легко пропустить какой-нибудь гомолог (как, например, в нашем случае родственный AAT_ECOLI белок AAT_PSEAE из Pseudomonas aeruginosa был "упущен"), а найденныевыравнивания будут иметь низкий вес и высокое значение e-value, что не прибавляет исследованию надежности. По этим причинам, как нам кажется, лучше использовать (там, где это возможно) программы пакета BLAST, работающие с транслированными нуклеотидными последовательностями, а BLASTN применять, если нужно найти либо последовательность, не кодирующую белок, либо очень близкую нуклеотидную последовательность (или даже точную копию).