Возврат на главную страницу четвертого семестра

База данных CKKAPs

(Conserved Key Amino Acid Positions Database)

Авторский состав: Wilfred W. Li, Boojala V. B. Reddy, John G. Tate, Ilya N. Shindyalov and Philip E. Bourne.
Организация: Калифорнийский Университет (University of California).

Эта страница содержит краткую аннотацию базы данных CKAAPs, которая включает в себя:

Авторская аннотация базы данных и ее обсуждение

База данных предоставляет анализ ключевых консервативных позиций в пространственных структурах белков. Это может применяться при исследованиях структурной целостности, функциональных сайтов и при выборе позиций для модификации белков. При этом используются два различных алгоритма построения пространственных выравниваний белков – CE и FSSP. Информация о выровненных последовательностях была расширена путем поиска по базе данных NR. Найденные последовательности затем использовались, чтобы вычислить аминокислотные позиции, которые более консервативны, чем ожидается.

Примечание: CE – Combinatorial Extension, авторы Ilya N. Shindyalov и Philip E. Bourne, FSSP – Families of Structurally Similar Proteins, авторы Liisa Holm и Chris Sander. По-видимому, в приведенном выше описании допущена ошибка – FSSP не есть название метода, которым строится выравнивание, это название базы данных с такими выравниваниями. Метод, предложенный Лиисой Холм и Крисом Сандером, называется Dali.

Как следует из описания авторов, эта база данных составлялась и обновляется автоматически – по мере обновления используемых баз данных структурных выравниваний белков. Критерий использования выравнивания:

Мы можем заметить, что более четкая формулировка того, какой сервис предоставляет база данных, находится в прилагаемой к базе данных статье:
База данных ключевых консервативных аминокислотных позиций позволяет анализировать структурно схожие белки с непохожими последовательностями, если ключевые остатки определены в их общем типе свертки.

Пользовательские качества титульной страницы

Стартовая страница базы содержит ссылки на основные инструменты базы, приведенное выше описание алгоритма ее составления, ссылку на статью-описание базы. Остановимся подробнее на тех недостатках титульной страницы, которые мы заметили:

Недостатки страницы помощи Howto

Судя по названию, на этой странице должено быть объяснение Как сделать Что-то. Однако большую часть в нем занимают описания аббревиатур, сокращений и понятий, используемых в базе данных. Причем с некоторыми странными местами, на которые хотелось бы обратить внимание отдельно (см. таблицу ниже). Если даже опустить эти неточности, то все же более чем странен такой формат файла с многообещающим названием Howto. Это больше похоже на Tips.

Положение на странице Сомнительный текст Комментарий
В параграфе Search Features, поиск по ключевым словам, последнее предложение абзаца "Examples are here:" Так где же?...
В параграфе Search Features, поиск по ключевым словам, "Ключевые слова могут быть сохранены щелчком на кнопке Save" Возможно, и могут быть сохранены, но такой кнопки не существует
В параграфе Search Features, поиск по PDB ID "Чтобы провести поиск по PDB ID, просто введите его" В сравнении с другими "подробными" описаниями действий, которые нужно произвести для достижения эффекта, это выглядит комично
В параграфе Abbreviations, PDB Representative "Последовательностям со 100% идентичностью приписывается Z-score равный 10" Явно не уточнено, что это верно лишь для метода CE, в то время как у метода Dali есть своя шкала Z-score, и в этом легко убедиться, посмотрев с помощью быстрого поиска любой PDB, например, 2cgp.
В параграфе Abbreviations, п. 24 "Ala, Val, Leu, ile... – это трехбуквенный аминокислотный код" Без комментариев

Описание доступных сервисов

Название сервиса Входные данные Параметры Что можно получить на выходе
Быстрый просмотр базы данных (CKAAPs Quick View) PDB ID, ID цепи
  • окраска по рангам или по уровню доверия
  • нарисовать все атомы или нет
  • источник выравнивания - CE или FSSP
  • CKAAPs в виде скрипта или html-странички с окраской по позициям
  • выравнивание последовательностей, выравнивание вторичных структур или третичных структур
Анализ структуры PDB (Custom Structure Analysis) PDB ID
  • Максимальное RMSD
  • Минимальный Z-score
  • Максимальная идентичность последовательностей
  • Минимальная длина выравнивания
  • Минимальная длина последовательности
  • Источник выравнивания (CE или FSSP)
Ссылка на результат работы программы пересылается по электронной почте. Результат доступен примерно через 10 минут. Анализирует указанный PDB-файл (если для него есть выравнивание CE или FSSP) и в файле-выдаче показывает фрагмент выравнивания с указанными ключевыми позициями
Анализ выравнивания в формате CKAAPs (Custom Alignment Analysis)
  • PDB ID
  • Идентификатор цепи
  • Входной файл с выравниванием
Ссылка на результат работы программы пересылается по указанному адресу. Результат доступен через примерно 5 минут

Примеры использования сервисов

Мы провели тестовый запуск программы анализа структуры белка CRP_ECOLI c приведенными слева параметрами. Результирующий файл, по-видимому, содержит выделенные каким-то образом консервативные ключевые остатки. Однако об этом можно только догадываться – никаких пояснений к выдаче нет. Лишь анализируя статью, которая приложена к базе данных, мы смогли установить, что две последовательности, расположенные в файле-выдаче первыми, представляют ранг ключевой позиции (буквами, "a" – наилучший) и уровень доверия (цифрами, от 0 до 9).

Посмотреть результат запроса можно здесь.

Сервис анализа выравнивания запрашивает PDB ID (какого именно PDB?) и выравнивание в формате CKAAPs (причем как получить такое выравнивание, не сказано!), а в качестве ответа на запрос выдает файл, к которому нет никакого описания. Мы ввели в качестве выравнивания то, которое было приведено в качестве примера, а в качестве PDB поставленный по умолчанию идентификатор. Полученный результат приведен ниже.

                    999--------------
                    abc--------------
  1A6M:_  100/1     KALEFRKDIAAKYKELG
  1H97:A  100/1     KFLKVFPMMAAEI----
  2GDM:_  100/1     IAYDLAIVIKKEMDDAA
  3SDH:A  100/9     KLVAVQA-AL-------
  1IRD:B  100/202   KVVAVANALAHKYH---
  1EW6:A  100/1     RFGKLVSALSSAGM---
  1PHN:A  100/30    TYIDAINALS-------
  1QGW:C  100/30    GYFDVTAAIS-------
Опять-таки, лишь после анализа статьи стало понятно, что именно представляют собой первые последовательности. Конечно, с точки зрения опытного пользователя это не представляет проблемы, но все же, как мы хотели заметить, что лучше было бы вставить краткое описание в текст выдачи.

Заполненность базы данных

То, насколько заполнена база данных, напрямую зависит от количества PDB файлов, для которых были построены выравнивания методами Dali или CE. По данным статьи в нее входят:

Судя по динамике развития банка PDB, в нем было 16479 структур в 2001 году. Судя по этим данным, по крайней мере на момент выпуска текущего релиза базы данных CKAAPs в ней содержалась небольшая часть известных PDB-структур. Хотя в данном случае численная статистика не дает ответа на вопрос о том, насколько база данных заполнена – ведь ее авторы не ставили целью обработать все известные PDB, а скорее стремились выбрать из них наиболее типичные.

Наше мнение о базе данных

В целом, база данных производит впечатление давно не обновлявшейся, "заброшенной" (особенно если учесть то, что последний релиз 1.3 связан с релизами других баз данных (CE, FSSP, Swiss-Prot NR), датированных самое позднее 2003 годом, а в статье-описании говорится, что обновление должно происходить раз в 2 месяца).

В приведенной выше характеристике базы данных очень детально описывались ее недостатки. Чтобы не повторяться, стоит указать достоинства этой базы данных:


© Dibrova Dasha aka UdavDasha, Fadeev Andrey, Lukiyanova Lena, 2006