Авторский состав: Wilfred W. Li, Boojala V. B. Reddy, John G. Tate, Ilya N. Shindyalov and Philip E. Bourne.
Организация: Калифорнийский Университет (University of California).
Эта страница содержит краткую аннотацию базы данных CKAAPs, которая включает в себя:
База данных предоставляет анализ ключевых консервативных позиций в пространственных структурах белков. Это может применяться при исследованиях структурной целостности, функциональных сайтов и при выборе позиций для модификации белков. При этом используются два различных алгоритма построения пространственных выравниваний белков CE и FSSP. Информация о выровненных последовательностях была расширена путем поиска по базе данных NR. Найденные последовательности затем использовались, чтобы вычислить аминокислотные позиции, которые более консервативны, чем ожидается. |
Примечание: CE Combinatorial Extension, авторы Ilya N. Shindyalov и Philip E. Bourne, FSSP Families of Structurally Similar Proteins, авторы Liisa Holm и Chris Sander. По-видимому, в приведенном выше описании допущена ошибка FSSP не есть название метода, которым строится выравнивание, это название базы данных с такими выравниваниями. Метод, предложенный Лиисой Холм и Крисом Сандером, называется Dali.
Как следует из описания авторов, эта база данных составлялась и обновляется автоматически по мере обновления используемых баз данных структурных выравниваний белков. Критерий использования выравнивания:
Мы можем заметить, что более четкая формулировка того, какой сервис предоставляет база данных, находится в прилагаемой к базе данных статье:
База данных ключевых консервативных аминокислотных позиций позволяет анализировать структурно схожие белки с непохожими последовательностями, если ключевые остатки определены в их общем типе свертки. |
Стартовая страница базы содержит ссылки на основные инструменты базы, приведенное выше описание алгоритма ее составления, ссылку на статью-описание базы. Остановимся подробнее на тех недостатках титульной страницы, которые мы заметили:
Судя по названию, на этой странице должено быть объяснение Как сделать Что-то. Однако большую часть в нем занимают описания аббревиатур, сокращений и понятий, используемых в базе данных. Причем с некоторыми странными местами, на которые хотелось бы обратить внимание отдельно (см. таблицу ниже). Если даже опустить эти неточности, то все же более чем странен такой формат файла с многообещающим названием Howto. Это больше похоже на Tips.
Положение на странице | Сомнительный текст | Комментарий |
В параграфе Search Features, поиск по ключевым словам, последнее предложение абзаца | "Examples are here:" | Так где же?... |
В параграфе Search Features, поиск по ключевым словам, | "Ключевые слова могут быть сохранены щелчком на кнопке Save" | Возможно, и могут быть сохранены, но такой кнопки не существует |
В параграфе Search Features, поиск по PDB ID | "Чтобы провести поиск по PDB ID, просто введите его" | В сравнении с другими "подробными" описаниями действий, которые нужно произвести для достижения эффекта, это выглядит комично |
В параграфе Abbreviations, PDB Representative | "Последовательностям со 100% идентичностью приписывается Z-score равный 10" | Явно не уточнено, что это верно лишь для метода CE, в то время как у метода Dali есть своя шкала Z-score, и в этом легко убедиться, посмотрев с помощью быстрого поиска любой PDB, например, 2cgp. |
В параграфе Abbreviations, п. 24 | "Ala, Val, Leu, ile... это трехбуквенный аминокислотный код" | Без комментариев |
Название сервиса | Входные данные | Параметры | Что можно получить на выходе |
Быстрый просмотр базы данных (CKAAPs Quick View) | PDB ID, ID цепи |
|
|
Анализ структуры PDB (Custom Structure Analysis) | PDB ID |
| Ссылка на результат работы программы пересылается по электронной почте. Результат доступен примерно через 10 минут. Анализирует указанный PDB-файл (если для него есть выравнивание CE или FSSP) и в файле-выдаче показывает фрагмент выравнивания с указанными ключевыми позициями |
Анализ выравнивания в формате CKAAPs (Custom Alignment Analysis) |
| Ссылка на результат работы программы пересылается по указанному адресу. Результат доступен через примерно 5 минут |
Мы провели тестовый запуск программы анализа структуры белка CRP_ECOLI c
приведенными слева параметрами. Результирующий файл, по-видимому, содержит
выделенные каким-то образом консервативные ключевые остатки. Однако об этом
можно только догадываться никаких пояснений к выдаче нет. Лишь анализируя
статью, которая приложена к базе данных, мы смогли установить, что две последовательности,
расположенные в файле-выдаче первыми, представляют ранг ключевой позиции (буквами, "a"
наилучший) и уровень доверия (цифрами, от 0 до 9).
Посмотреть результат запроса можно здесь. |
Сервис анализа выравнивания запрашивает PDB ID (какого именно PDB?) и выравнивание в формате CKAAPs (причем как получить такое выравнивание, не сказано!), а в качестве ответа на запрос выдает файл, к которому нет никакого описания. Мы ввели в качестве выравнивания то, которое было приведено в качестве примера, а в качестве PDB поставленный по умолчанию идентификатор. Полученный результат приведен ниже.
999-------------- abc-------------- 1A6M:_ 100/1 KALEFRKDIAAKYKELG 1H97:A 100/1 KFLKVFPMMAAEI---- 2GDM:_ 100/1 IAYDLAIVIKKEMDDAA 3SDH:A 100/9 KLVAVQA-AL------- 1IRD:B 100/202 KVVAVANALAHKYH--- 1EW6:A 100/1 RFGKLVSALSSAGM--- 1PHN:A 100/30 TYIDAINALS------- 1QGW:C 100/30 GYFDVTAAIS-------Опять-таки, лишь после анализа статьи стало понятно, что именно представляют собой первые последовательности. Конечно, с точки зрения опытного пользователя это не представляет проблемы, но все же, как мы хотели заметить, что лучше было бы вставить краткое описание в текст выдачи.
То, насколько заполнена база данных, напрямую зависит от количества PDB файлов, для которых были построены выравнивания методами Dali или CE. По данным статьи в нее входят:
В целом, база данных производит впечатление давно не обновлявшейся, "заброшенной" (особенно если учесть то, что последний релиз 1.3 связан с релизами других баз данных (CE, FSSP, Swiss-Prot NR), датированных самое позднее 2003 годом, а в статье-описании говорится, что обновление должно происходить раз в 2 месяца).
В приведенной выше характеристике базы данных очень детально описывались ее недостатки. Чтобы не повторяться, стоит указать достоинства этой базы данных: