Трое с чаем, не считая TrSDB

Состав базы данных

     Создатели базы данных: Hermoso A., Aguilar D., Aviles F.X., Querol E. Курирующая организация: INSTITUT DE BIOTECNOLOGIA I DE BIOMEDICINA
     TrSDB - это база данных, объединяющая несколько аннотаций и подходов к предсказанию белковых мотивов, доменов, локализации в клетке для факторов транскрипции генов.
     На данный момент подходы к анализу следующие:
  • IPI and SPTR Non-Redundant proteomes - это гид по основным базам данных, описывающим протеомы высших эукариотпических организмов.
  • TranScout - база данных и классификация ДНК-связывающих белковых мотивов. Находит и оценивает консервативные мотивы в последовательностях белков, регулирующих работу генов.
  • ProtLoc оценивает (в баллах) предположительную локализацию белка в клетке (всего 5 вариантов, 1 из них - ядро).
  • TransMem предсказывает в белках трансмембранные домены.
  • BLAST
  • Ссылки на базы данных InterPro, Gene Ontology Annotation, ENSEMBL, SWISS-PROT/TREMBL и REFSEQ.
     На данный момент в базе данных TrSDB представлены 9 эукариотических протеомов (человек, мышь, крыса, Arabidopsis, водоросль и 2 представителя дрожжей), предполагается пополнение этого списка. Когда выбирается какой-то организм (по умолчанию - человек), его изображение появляется в правом верхнем углу. Качество изображения, как выясняется, соответствует текущему качеству БД. Различные группы записей генерируются в соответствии с предсказанием соответствия записям TranScout, вероятностью локализации в ядре, предсказаной ProtLoc, а также существующей аннотацией InterPro и/или Gene Onthology Association (GOA). Все записи TrSDB можно разделить на 3 группы:
  • Записи с определёнными записями GO (всего 102) уже аннотированы как факторы транскрипции.
  • Не имеют аннотации GOA и InterPro. Часть из них впервые аннотированы как предполагаемые факторы транскрипции исходя из предсказания TranScout.
  • Имеют аннотацию GOA/InterPro, но не относятся к определённым записями GO. Аннотация может быть неопределённой (напр., просто локализация в ядре). TranScout может предположить, что это фактор транскрипции или какую-то другую функцию, не аннотированную.

Генерация базы данных

     База данных TrSDB является автоматически сгенерированной. Она создана с использованием TranScout, TransMem и ProtLoc и объединяет информацию по девяти эукариотическим организмам.

Пользовательские свойства стартовой страницы базы

     Стартовая страница базы данных TrSDB кратко описывает назначение этой базы и приводит ссылки на другие связанные с ней базы данных.
     Со стартовой страницы можно сделать запрос по поиску белков в одном из девяти организмов: Homo sapiens, Mus musculus, Rattus norvegicus, Drosophila melanogaster, Arabidopsis thaliana, Caenorhabditis elegans, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Guillardia theta. Поиск может вестись по: AC белков (ACCESSION), по ключевым словам в аннотации (ANNOTATION), по идентификатору InterPro, Gene Ontology или TranScout (INTERPRO, GOA или TRS соответственно). Можно вывести находки, аннотированные только в TranScout или только в InterPro.
     На странице также приведена ссылка на классификацию доменов и мотивов в TranScout. В правом верхнем углу стартовой страницы приведены ссылки на:

Поисковые инструменты

     Описываемая база данных обладает собственным поисковым инструментом (на стартовой странице).
     Дополнительно можно вести поиск в других базах: TranScout, TransMem и ProtLoc.

Степень заполнения базы

     Хотя создатели БД и обещали обновить данные к 2004 г., до сих пор в ней собраны материалы октября-ноября 2003 года. Одним словом, второй свежести. А так как данные бывают только первой свежести, то о степени заполнения БД можно только улыбаться.

Тестовые запросы

  1. Сделаем запрос на стартовой странице: Оценка: Если создатели БД не обновят ее, то плучится 63 белка. Будут выданы их IPI-идентификаторы, а также идентификаторы по разным базам данных (SwissProt, Trembl), также полные названия белков.

  2. Опробуем, как работает сервис TranScout:
    Входные данные:
    Identification: ENO11_SCHPO
    Query sequence: MAIQKVFARQIYDSRGNPTVEVDLTTETGIHRAIVPSGASTGIWEALEMRDGDKTKWGGKGVLK
                    AVGNVNNIIAPAVVKANLDVTDQKAADEFLLKLDGTENKSKLGANAILGVSMAICRAGAAQKK
                    LPLWKYIAENFGTKGPYVLPVPSFNVLNGGSHAGGDLAFQEFMILPTGAPSFSEAMRWGAETY
                    HTLKSIAKKRYGSSAGNVGDEGGIAPDLQTPQEALDLIVEAINKAGYEGKIKIGLDVASSEFY
                    VDGKYDLDIKAAKPKPENKLTYQQLTDLYVELSKKYPIVSIEDPFDQDDWSAWTHMKAETDFQ
                    IVGDDLTVTNVKRLRTAIDKKCANALLLKVNQIGSVTESLNAVRMSYEAGWGVMVSHRSGETA
                    DTFISHLTVGIGAGQLKSGAPCRSERLAKYNELLRIEEELGSEGVYAGAHAGKYIKAAKF
    
    Выходные данные:
    No alignments found.
    Оценка: Стоит похвалить этот сервис: енолаза, действительно, не является фактором трнскрипции.

  3. Работа TransMem
    Входные данные те же. Банк SwissProt.
    Выход:
    TransMem Results
    TM : LKAVGNVNNIIAPAVVKA | 62 => 80
    TM : NAILGVSMAIC | 108 => 119
    Оценка: Потрясающий сервис: находит иголку не только в стоге сена, но и там где ее нет. Действительно, откуда в цитоплазматической енолазе две трансмембранные спирали?

  4. Работа ProtLoc.
    Входные данные те же. Банк SwissProt.
    Выход:
    ProtLoc Results
    Intracellular => 3.65522059577971
    Extracellular => 3.98646858002165
    Anchored => 5.23090716463641
    Membrane => 6.12246961766273
    Nuclear => 7.48067395821228
    Оценка: А этот, с позволения сказать, "tool" рассказывает, что гликолиз идет в ядре и нигде больше.

Общее мнение по базе данных

     Неплохая задумка - "справочник для экспериментаторов" превращен в опасный для использования "топор". Тонкая работа ему не под силу.

               Шагам Лев, Кривошей Александр, Решетов Денис


© Решетов Денис, 2006