На главную страницу

Аннотация базы данных гистоновых белков.

Histone Sequence Database


Это база данных FASTA последовательностей белков-гистонов (а также ссылок на их описание в NCBI) и их 3D-структур. Была создана David Landsman и Leonardo Marino-Ramirez из NCBI (национальный центр биотехнологической информации) с Andy Baxevanis и Benjamin Hsu из NHGRI (государственный институт исследования генома человека). На тему этой БД была написана статья (S. Sullivan, D.W. Sink, K.L. Trout, I. Makalowska, P.M. Taylor, A.D. Baxevanis, D. Landsman (2002) The Histone Database. Nucleic Acids Research. 30 (1): 341-342).

Здесь хранятся:

Для того чтобы найти то, что надо (см. вышеприведенный список), пользователь должен побродить по ссылкам (если знаешь английский, все быстро найдешь), но также есть специальный «поисковый инструмент» для поиска FASTA последовательностей гистонов определенного типа из определенного организма.

Поиск FASTA последовательностей можно вести по полям:

Пример: из организма Brassica napus, из гистона H2A был взят кусок последовательности: LCLAIRN; далее был проведен поиск по всем гистонам, по всем организмам:

Мне было выдано:

Первый вариант (таблица):

GI ACCESSION HISTONE_CATEGORY DEFLINE SEQUENCE
5777792 CAB53509.1 H2A >gi|5777792|emb|CAB53509.1| histone H2A [Brassica napus]
MESSPAAAAKPARGAGGRKGGDRKKSVSKSVKAGLQFPVGRISRYLKKGRYAIRY
GAGAPVYLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGKLLH
GVTIASGGVLPNINPVLLPKRSASQTEKPEKAAKAAKSPKKA
18700220 AAL77720.1 H2A >gi|18700220|gb|AAL77720.1| AT5g27670/F15A18_130 [Arabidopsis thaliana]
MESSQATTKPTRGAGGRKGGDRKKSVSKSVKAGLQFPVGRIARYLKKGRYALRY
GSGAPVYLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGRLL
HGVTIASGGVLPNINPVLLPKKSTASSSQAEKASATKSPKKA

Второй вариант (FASTA):

>gi|5777792|emb|CAB53509.1| histone H2A [Brassica napus]
MESSPAAAAKPARGAGGRKGGDRKKSVSKSVKAGLQFPVGRISRYLKKGRYAIRYGAGAP
VYLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGKLLHGVTIASGGVL
PNINPVLLPKRSASQTEKPEKAAKAAKSPKKA
>gi|18700220|gb|AAL77720.1| AT5g27670/F15A18_130 [Arabidopsis thaliana]
MESSQATTKPTRGAGGRKGGDRKKSVSKSVKAGLQFPVGRIARYLKKGRYALRYGSGAPV
YLAAVLEYLAAEVLELAGNAARDNKKNRINPRHLCLAIRNDEELGRLLHGVTIASGGVLP
NINPVLLPKKSTASSSQAEKASATKSPKKA

Замечу, что никто не говорит, сколько последовательностей было найдено.

Оценим степень заполнения базы. Всего в этой БД хранится 2189 последовательностей гистоновых белков. Swiss-Prot и TrEMBL на запрос «Histone» ответили, что они знают 5983 таких белков, а UniProt нашел 10470 последовательностей. Однако замечу, что они могли найти не только сами гистоны, но и фрагменты, а также просто связанные каким-либо образом с гистонами белки (например, «Set1/Ash2 histone methyltransferase complex subunit ASH2» или «Histone-like protein 18C»). Поэтому был проведены дальнейшие опыты. В БД UniProt с помощью SRS был произведен поиск белков длиной больше 100 аминокислотных остатков с keywords «Histone». Но в ответ на это ничего не было найдено. Еще одна попытка состояла в том, чтобы найти гистоны определенного типа (All text), опять же с длиной больше 100. Гистонов H1 было найдено 658, H2A – 1695, H2B – 1412, H3 – 3367, H4 – 2767, H5 – 17. Аналогичный поиск был проведен по БД Swiss-Prot. Был получен следующий результат: H1 – 214, H2A – 942, H2B – 661, H3 – 847, H4 – 819, H5 – 11. Таким образом, всего в БД UniProt находится 9899 гистонов, в БД Swiss-Prot – 3483. Углубляться в дебри сих баз данных особого смысла не имеет, поэтому, говоря, что Swiss-Prot – «золотой стандарт» аннотации, сравним с ним исследуемую БД. Или, может быть, лучше сравнивать ее с БД UniProt? Но ответ отрицательный. Авторы разделили все белки на две части – «Non-Redundant Set», что указывает на то, что авторы лично «смотрели глазками» на них, это соответствует «золотому стандарту» БД Swiss-Prot. Следовательно, эту часть гистонов надо сравнивать с этой БД. В UniProt же «сливаются» и автоматически аннотированные последовательности, поэтому с ее выдачей надо сравнивать общую выдачу исследуемой базы. НО. Как это ни забавно или странно, но авторы молодцы – в этой БД выдача общая и для всех «Non-Redundant Set» одинакова! Зато мы будем сравнивать выдачу нашей БД (2189 белков) не с шестью-десятью тысячами белков TrEMBL и UniProt, а с золотой выдачей Swiss-Prot, что не может не радовать (приятно и нам, и авторам БД, если мы оцениваем их работу положительно). 3494 последовательностей, конечно примерное число, т.к., например, H5 гистоны относятся по-настоящему к H1, да и поиск велся по всем полям, но все же я могу сказать, что «степень заполнения» этой БД достаточна хорошая, хотя последнее обновление делалось год назад.

Теперь скажем пару слов о БД в целом. Здесь есть много всего действительно интересного (см. выше), но все же это база данных именно FASTA последовательностей гистонов и их 3D-структур. Но если с 3D-структурами все нормально, то насчет первого пункта у меня есть две претензии. Во-первых, они (авторы) три недели, извините, «пудрили мне мозги» этими «Redundant proteins», я пыталась найти хоть один, а потом оказалось, что таковых здесь и нет вовсе… Второй пункт более существенен: в выдаче, когда мы ищем определенные гистоны из определенного организма не указывается число находок, что весьма неприятно как с общей, так и с лично моей точки зрения. (Как вы думаете, как я подсчитала, что здесь содержится именно 2189 белков?..) Все остальное я могу назвать удовлетворительным. А вообще, у меня такое чувство, что они просто курсовую делали.

На главную страницу


© Закирзянова Виоланта, 2006