Возврат на главную страницу четвертого семестра

База данных CKKAPs

(Conserved Key Amino Acid Positions Database)

Авторский состав: Wilfred W. Li, Boojala V. B. Reddy, John G. Tate, Ilya N. Shindyalov and Philip E. Bourne.
Организация: Калифорнийский Университет (University of California).

Эта страница содержит краткую аннотацию базы данных CKAAPs, которая включает в себя:

Авторскую аннотацию базы данных;
Описание пользовательских качеств титульной страницы;
Описание недостатков страницы Howto;
Описание доступных сервисов базы данных;
Примеры использования сервисов;
Заполненность базы данных;
Наше мнение о базе данных;

Авторская аннотация базы данных и ее обсуждение

База данных предоставляет анализ ключевых консервативных позиций в пространственных структурах белков. Это может применяться при исследованиях структурной целостности, функциональных сайтов и при выборе позиций для модификации белков. При этом используются два различных алгоритма построения пространственных выравниваний белков – CE и FSSP. Информация о выровненных последовательностях была расширена путем поиска по базе данных NR. Найденные последовательности затем использовались, чтобы вычислить аминокислотные позиции, которые более консервативны, чем ожидается.

Примечание: CE – Combinatorial Extension, авторы Ilya N. Shindyalov и Philip E. Bourne, FSSP – Families of Structurally Similar Proteins, авторы Liisa Holm и Chris Sander. По-видимому, в приведенном выше описании допущена ошибка – FSSP не есть название метода, которым строится выравнивание, это название базы данных с такими выравниваниями. Метод, предложенный Лиисой Холм и Крисом Сандером, называется Dali.

Как следует из описания авторов, эта база данных составлялась и обновляется автоматически – по мере обновления используемых баз данных структурных выравниваний белков. Критерий использования выравнивания:

для CE - Z-score > 4.5 и RMSD (root mean square deviation) < 3Å, минимальная длина цепи 30 остатков;
для FSSP - Z-score > 5 и RMSD < 3Å, минимальная длина цепи 31 остаток.

Мы можем заметить, что более четкая формулировка того, какой сервис предоставляет база данных, находится в прилагаемой к базе данных статье:

База данных ключевых консервативных аминокислотных позиций позволяет анализировать структурно схожие белки с непохожими последовательностями, если ключевые остатки определены в их общем типе свертки.

Пользовательские качества титульной страницы

Стартовая страница базы содержит ссылки на основные инструменты базы, приведенное выше описание алгоритма ее составления, ссылку на статью-описание базы. Остановимся подробнее на тех недостатках титульной страницы, которые мы заметили:

Недостатки содержания:
- Поиск по мотиву пробной последовательности (белка CRP_ECOLI, PDB для которого – 2cgp – находится по идентификатору PDB в базе данных) не осуществим. Причем, кажется, неосуществим никакой поиск по последовательности, ибо нет даже специального окна для ее ввода, а ввод в имеющиеся поля, как показала практика, не дает результата;
- Ссылки в графе быстрого поиска, которые, по-видимому, должны объяснять значение его параметров, ведут на страницу Howto, где об этих параметрах ничего не сказано;
- Презентация Navigation, ссылка на которую приведена последней в списке Quick Links, составлена, как нам показалось, для старой версии базы данных. Во всяком случае, страницы, которые доступны с нее в качестве примеров относятся в базе данных версии 2000 года с совсем другим оформлением и содержанием.
Недостатки оформления:
- Сразу бросается в глаза картинка, которая должна, судя по ее центральному положению на странице, отображать что-то важное, а сообщающая "Sorry, this image cannot be found";
- Разные элементы странички по-разному реагируют на изменение ширины окна – название базы данных чувствительно к изменению, а основное содержание имеет фиксированную ширину; смысл этого неясен, но содержательная область уменьшается;
- В строке, которая находится ниже строки быстрого поиска, неясно значение слов "Browsers" и "Search" (если это ссылки, то почему не работающие?);

Недостатки страницы помощи Howto

Судя по названию, на этой странице должено быть объяснение Как сделать Что-то. Однако большую часть в нем занимают описания аббревиатур, сокращений и понятий, используемых в базе данных. Причем с некоторыми странными местами, на которые хотелось бы обратить внимание отдельно (см. таблицу ниже). Если даже опустить эти неточности, то все же более чем странен такой формат файла с многообещающим названием Howto. Это больше похоже на Tips.

Положение на странице Сомнительный текст Комментарий

В параграфе Search Features, поиск по ключевым словам, последнее предложение абзаца "Examples are here:" Так где же?...

В параграфе Search Features, поиск по ключевым словам, "Ключевые слова могут быть сохранены щелчком на кнопке Save" Возможно, и могут быть сохранены, но такой кнопки не существует

В параграфе Search Features, поиск по PDB ID "Чтобы провести поиск по PDB ID, просто введите его" В сравнении с другими "подробными" описаниями действий, которые нужно произвести для достижения эффекта, это выглядит комично

В параграфе Abbreviations, PDB Representative "Последовательностям со 100% идентичностью приписывается Z-score равный 10" Явно не уточнено, что это верно лишь для метода CE, в то время как у метода Dali есть своя шкала Z-score, и в этом легко убедиться, посмотрев с помощью быстрого поиска любой PDB, например, 2cgp.

В параграфе Abbreviations, п. 24 "Ala, Val, Leu, ile... – это трехбуквенный аминокислотный код" Без комментариев

Описание доступных сервисов

Название сервиса Входные данные Параметры Что можно получить на выходе

Быстрый просмотр базы данных (CKAAPs Quick View) PDB ID, ID цепи

окраска по рангам или по уровню доверия
нарисовать все атомы или нет
источник выравнивания - CE или FSSP

CKAAPs в виде скрипта или html-странички с окраской по позициям
выравнивание последовательностей, выравнивание вторичных структур или третичных структур

Анализ структуры PDB (Custom Structure Analysis) PDB ID

Максимальное RMSD
Минимальный Z-score
Максимальная идентичность последовательностей
Минимальная длина выравнивания
Минимальная длина последовательности
Источник выравнивания (CE или FSSP)
Ссылка на результат работы программы пересылается по электронной почте. Результат доступен примерно через 10 минут. Анализирует указанный PDB-файл (если для него есть выравнивание CE или FSSP) и в файле-выдаче показывает фрагмент выравнивания с указанными ключевыми позициями

Анализ выравнивания в формате CKAAPs (Custom Alignment Analysis)

PDB ID
Идентификатор цепи
Входной файл с выравниванием
Ссылка на результат работы программы пересылается по указанному адресу. Результат доступен через примерно 5 минут

Примеры использования сервисов

Мы провели тестовый запуск программы анализа структуры белка CRP_ECOLI c приведенными слева параметрами. Результирующий файл, по-видимому, содержит выделенные каким-то образом консервативные ключевые остатки. Однако об этом можно только догадываться – никаких пояснений к выдаче нет. Лишь анализируя статью, которая приложена к базе данных, мы смогли установить, что две последовательности, расположенные в файле-выдаче первыми, представляют ранг ключевой позиции (буквами, "a" – наилучший) и уровень доверия (цифрами, от 0 до 9).
Посмотреть результат запроса можно здесь.

Сервис анализа выравнивания запрашивает PDB ID (какого именно PDB?) и выравнивание в формате CKAAPs (причем как получить такое выравнивание, не сказано!), а в качестве ответа на запрос выдает файл, к которому нет никакого описания. Мы ввели в качестве выравнивания то, которое было приведено в качестве примера, а в качестве PDB поставленный по умолчанию идентификатор. Полученный результат приведен ниже.

                    999--------------
                    abc--------------
  1A6M:_  100/1     KALEFRKDIAAKYKELG
  1H97:A  100/1     KFLKVFPMMAAEI----
  2GDM:_  100/1     IAYDLAIVIKKEMDDAA
  3SDH:A  100/9     KLVAVQA-AL-------
  1IRD:B  100/202   KVVAVANALAHKYH---
  1EW6:A  100/1     RFGKLVSALSSAGM---
  1PHN:A  100/30    TYIDAINALS-------
  1QGW:C  100/30    GYFDVTAAIS-------

Опять-таки, лишь после анализа статьи стало понятно, что именно представляют собой первые последовательности. Конечно, с точки зрения опытного пользователя это не представляет проблемы, но все же, как мы хотели заметить, что лучше было бы вставить краткое описание в текст выдачи.

Заполненность базы данных

То, насколько заполнена база данных, напрямую зависит от количества PDB файлов, для которых были построены выравнивания методами Dali или CE. По данным статьи в нее входят:

1496 типичных полипептидных цепей, обработанных CE, которые представляют 40% из 3800 содержащихся в базе данных CE (релиз июня 2001 года);
997 типичных полипептидных цепей, определенных FSSP, которые представляют 40% из 2600 содержащихся в базе данных FSSP (релиз июня 2001 года).

Судя по динамике развития банка PDB, в нем было 16479 структур в 2001 году. Судя по этим данным, по крайней мере на момент выпуска текущего релиза базы данных CKAAPs в ней содержалась небольшая часть известных PDB-структур. Хотя в данном случае численная статистика не дает ответа на вопрос о том, насколько база данных заполнена – ведь ее авторы не ставили целью обработать все известные PDB, а скорее стремились выбрать из них наиболее типичные.

Наше мнение о базе данных

В целом, база данных производит впечатление давно не обновлявшейся, "заброшенной" (особенно если учесть то, что последний релиз 1.3 связан с релизами других баз данных (CE, FSSP, Swiss-Prot NR), датированных самое позднее 2003 годом, а в статье-описании говорится, что обновление должно происходить раз в 2 месяца).

В приведенной выше характеристике базы данных очень детально описывались ее недостатки. Чтобы не повторяться, стоит указать достоинства этой базы данных:

Интересная постановка задачи, которая решается как для выравниваний, построенных по алгоритму двух авторов базы данных, так и для выравниваний, построенных одним из классических алгоритмов Dali;
Приятная цветовая гамма, в которой оформлена база данных;
Данные высокоинформативны (после того, конечно, как пользователь так или иначе осознает, какую выдачу он получил!);
При анализе структуры PDB можно использовать много настроек;

Положение на странице	Сомнительный текст	Комментарий
В параграфе Search Features, поиск по ключевым словам, последнее предложение абзаца	"Examples are here:"	Так где же?...
В параграфе Search Features, поиск по ключевым словам,	"Ключевые слова могут быть сохранены щелчком на кнопке Save"	Возможно, и могут быть сохранены, но такой кнопки не существует
В параграфе Search Features, поиск по PDB ID	"Чтобы провести поиск по PDB ID, просто введите его"	В сравнении с другими "подробными" описаниями действий, которые нужно произвести для достижения эффекта, это выглядит комично
В параграфе Abbreviations, PDB Representative	"Последовательностям со 100% идентичностью приписывается Z-score равный 10"	Явно не уточнено, что это верно лишь для метода CE, в то время как у метода Dali есть своя шкала Z-score, и в этом легко убедиться, посмотрев с помощью быстрого поиска любой PDB, например, 2cgp.
В параграфе Abbreviations, п. 24	"Ala, Val, Leu, ile... – это трехбуквенный аминокислотный код"	Без комментариев

Название сервиса	Входные данные	Параметры	Что можно получить на выходе
Быстрый просмотр базы данных (CKAAPs Quick View)	PDB ID, ID цепи	окраска по рангам или по уровню доверия нарисовать все атомы или нет источник выравнивания - CE или FSSP	CKAAPs в виде скрипта или html-странички с окраской по позициям выравнивание последовательностей, выравнивание вторичных структур или третичных структур
Анализ структуры PDB (Custom Structure Analysis)	PDB ID	Максимальное RMSD Минимальный Z-score Максимальная идентичность последовательностей Минимальная длина выравнивания Минимальная длина последовательности Источник выравнивания (CE или FSSP)	Ссылка на результат работы программы пересылается по электронной почте. Результат доступен примерно через 10 минут. Анализирует указанный PDB-файл (если для него есть выравнивание CE или FSSP) и в файле-выдаче показывает фрагмент выравнивания с указанными ключевыми позициями
Анализ выравнивания в формате CKAAPs (Custom Alignment Analysis)	PDB ID Идентификатор цепи Входной файл с выравниванием		Ссылка на результат работы программы пересылается по указанному адресу. Результат доступен через примерно 5 минут