Аннотация базы данных гистоновых белков.

Histone Sequence Database

Это база данных FASTA последовательностей белков-гистонов (а также ссылок на их описание в NCBI) и их 3D-структур. Была создана David Landsman и Leonardo Marino-Ramirez из NCBI (национальный центр биотехнологической информации) с Andy Baxevanis и Benjamin Hsu из NHGRI (государственный институт исследования генома человека). На тему этой БД была написана статья (S. Sullivan, D.W. Sink, K.L. Trout, I. Makalowska, P.M. Taylor, A.D. Baxevanis, D. Landsman (2002) The Histone Database. Nucleic Acids Research. 30 (1): 341-342).

Здесь хранятся:

FASTA последовательности известных гистоновых белков, как отдельные для каждого белка, так и объединенные единой ссылкой по типу гистонов (есть отдельные файлы для всех хранящихся здесь белков и отдельно для «Non-Redundant Protein» (пояснение см. далее));
множественные выравнивания разных типов гистонов, сделанных с помощью MUSCLE и CLUSTAL_X;
пост-трансляционные модификации гистонов (здесь во множественном выравнивании гистонов, разделенных по типам, для которых эти модификации известны, представлена разметка разными цветами для различных вариантов – метилирования, ацилирования и т.д.);
минимальная информация о расположении гистоновых белков в геноме человека со ссылкой на NCBI, где показано расположение в геноме всех белков, каким-либо образом связанных с гистонами;
список негистоновых белков, содержащих гистоновый Fold-мотив, созданный с помощью PSI-BLAST, с отдельной ссылкой на "Archaeal histone sequences", которая официально не работает;
Список известных 3D-структур гистоновых белков или комплексов и негистоновых белков, содержащих гистоновый Fold-мотив (таковых 28 штук).

Для того чтобы найти то, что надо (см. вышеприведенный список), пользователь должен побродить по ссылкам (если знаешь английский, все быстро найдешь), но также есть специальный «поисковый инструмент» для поиска FASTA последовательностей гистонов определенного типа из определенного организма.

Поиск FASTA последовательностей можно вести по полям:

Keyword (из всех слов, которые присутствуют в описании белка (которые я пробовала вводить: “Predicted”, “histone family”, “histone”, “member X”, “similar to”, “similar”, “testis-specific”, “unnamed protein product”) работает только “Predicted”).
Sequence Fragment.

Пример: из организма Brassica napus, из гистона H2A был взят кусок последовательности: LCLAIRN; далее был проведен поиск по всем гистонам, по всем организмам:

Мне было выдано:

Первый вариант (таблица):

GI ACCESSION HISTONE_CATEGORY DEFLINE SEQUENCE

5777792 CAB53509.1 H2A >gi|5777792|emb|CAB53509.1| histone H2A [Brassica napus]
MESSPAAAAKPARGAGGRKGGDRKKSVSKSVKAGLQFPVGRISRYLKKGRYAIRY GAGAPVYLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGKLLH GVTIASGGVLPNINPVLLPKRSASQTEKPEKAAKAAKSPKKA

18700220 AAL77720.1 H2A >gi|18700220|gb|AAL77720.1| AT5g27670/F15A18_130 [Arabidopsis thaliana]
MESSQATTKPTRGAGGRKGGDRKKSVSKSVKAGLQFPVGRIARYLKKGRYALRY GSGAPVYLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGRLL HGVTIASGGVLPNINPVLLPKKSTASSSQAEKASATKSPKKA

Второй вариант (FASTA):

>gi|5777792|emb|CAB53509.1| histone H2A [Brassica napus]
MESSPAAAAKPARGAGGRKGGDRKKSVSKSVKAGLQFPVGRISRYLKKGRYAIRYGAGAP
VYLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGKLLHGVTIASGGVL
PNINPVLLPKRSASQTEKPEKAAKAAKSPKKA
>gi|18700220|gb|AAL77720.1| AT5g27670/F15A18_130 [Arabidopsis thaliana]
MESSQATTKPTRGAGGRKGGDRKKSVSKSVKAGLQFPVGRIARYLKKGRYALRYGSGAPV
YLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGRLLHGVTIASGGVLP
NINPVLLPKKSTASSSQAEKASATKSPKKA

Замечу, что никто не говорит, сколько последовательностей было найдено.

Category (на выбор предоставляется пять типов гистонов: H1, H2A, H2B, H3, H4 – или все сразу).
Organism (на выбор предоставляется 330 организмов, можно выбрать только один или все сразу).
Redundant or Non-Redundant Set (первое – это все вариации для каждого белка, которые известны (например, если в разных лабораториях их последовательность определена по-разному), второе – обработанные белки, то есть консенсус всех вариаций, то, что авторы считают правильным вариантом). Критику этого пункта см. ниже.

Оценим степень заполнения базы. Всего в этой БД хранится 2189 последовательностей гистоновых белков. Swiss-Prot и TrEMBL на запрос «Histone» ответили, что они знают 5983 таких белков, а UniProt нашел 10470 последовательностей. Однако замечу, что они могли найти не только сами гистоны, но и фрагменты, а также просто связанные каким-либо образом с гистонами белки (например, «Set1/Ash2 histone methyltransferase complex subunit ASH2» или «Histone-like protein 18C»). Поэтому был проведены дальнейшие опыты. В БД UniProt с помощью SRS был произведен поиск белков длиной больше 100 аминокислотных остатков с keywords «Histone». Но в ответ на это ничего не было найдено. Еще одна попытка состояла в том, чтобы найти гистоны определенного типа (All text), опять же с длиной больше 100. Гистонов H1 было найдено 658, H2A – 1695, H2B – 1412, H3 – 3367, H4 – 2767, H5 – 17. Аналогичный поиск был проведен по БД Swiss-Prot. Был получен следующий результат: H1 – 214, H2A – 942, H2B – 661, H3 – 847, H4 – 819, H5 – 11. Таким образом, всего в БД UniProt находится 9899 гистонов, в БД Swiss-Prot – 3483. Углубляться в дебри сих баз данных особого смысла не имеет, поэтому, говоря, что Swiss-Prot – «золотой стандарт» аннотации, сравним с ним исследуемую БД. Или, может быть, лучше сравнивать ее с БД UniProt? Но ответ отрицательный. Авторы разделили все белки на две части – «Non-Redundant Set», что указывает на то, что авторы лично «смотрели глазками» на них, это соответствует «золотому стандарту» БД Swiss-Prot. Следовательно, эту часть гистонов надо сравнивать с этой БД. В UniProt же «сливаются» и автоматически аннотированные последовательности, поэтому с ее выдачей надо сравнивать общую выдачу исследуемой базы. НО. Как это ни забавно или странно, но авторы молодцы – в этой БД выдача общая и для всех «Non-Redundant Set» одинакова! Зато мы будем сравнивать выдачу нашей БД (2189 белков) не с шестью-десятью тысячами белков TrEMBL и UniProt, а с золотой выдачей Swiss-Prot, что не может не радовать (приятно и нам, и авторам БД, если мы оцениваем их работу положительно). 3494 последовательностей, конечно примерное число, т.к., например, H5 гистоны относятся по-настоящему к H1, да и поиск велся по всем полям, но все же я могу сказать, что «степень заполнения» этой БД достаточна хорошая, хотя последнее обновление делалось год назад.

Теперь скажем пару слов о БД в целом. Здесь есть много всего действительно интересного (см. выше), но все же это база данных именно FASTA последовательностей гистонов и их 3D-структур. Но если с 3D-структурами все нормально, то насчет первого пункта у меня есть две претензии. Во-первых, они (авторы) три недели, извините, «пудрили мне мозги» этими «Redundant proteins», я пыталась найти хоть один, а потом оказалось, что таковых здесь и нет вовсе… Второй пункт более существенен: в выдаче, когда мы ищем определенные гистоны из определенного организма не указывается число находок, что весьма неприятно как с общей, так и с лично моей точки зрения. (Как вы думаете, как я подсчитала, что здесь содержится именно 2189 белков?..) Все остальное я могу назвать удовлетворительным. А вообще, у меня такое чувство, что они просто курсовую делали.

На главную страницу