Поиск белка с заданной функциональной специфичностью

Задача - определить, есть ли белок с заданной специфичностью (trer) в заданном протеоме.

Первый этап: описание функциональных особенностей заданной группы
Заданный белок-прототип TreR_Ecoli выделен из кишечной палочки, значит, можно посмотреть описание его свойств на сайте EcoCyc.
Итак, заданный белок - репрессор транскрипции (TreR transcriptional repressor).
Имя гена - treR, длина последовательности - 315 аминокислотных остатка.
Действует как репрессор оперонов, вовлеченных в фукозный транспорт и расщепление при осмотическом стрессе.
В присутствии трехалозо-6-фосфата и при низком уровне осмотического давления TreR вновь активирует (дерепрессирует) оперон, зависящий от транспорта трехалозы и ее катаболизма.
Трехалоза - это дисахарид глюкозы, в котором две глюкозы связаны посредством ?,?-1,1-связи.

Найдем в БД KEGG LIGAND структурную формулу трехалозы:
Этот достаточно простой сахар широко распространен среди бактерий, дрожжей, грибов, нематод, насекомых, растений и т.д.
Может выполнять несколько ключевых функций:
1) служит хранилищем энергии и углерода;
2) является стабилизатором и защитным средством для клеточных мембран и белков во время стресса;
3) служит сигнальной молекулой;
4) это структурный компонент различных гликолипидов в клеточных стенках бактерий.
Существует по крайней мере 3 различных пути синтеза трехалозы, что подтверждает необходимость ее наличия для выживания организма.
Стоит отметить, что термины GO из онтологии Cellular Component - "внутриклеточный" (intracellular) и цитоплазматический (cytoplasm).
Термины из онтологии Molecular Function дают информацию о том, что белок связывается с другим белком и проявляет специфическую репрессорную транскрипционную активность.
Термины из онтологии Biological Process уточняют, что белок участвует в регуляции транскрипции, отрицательно влияет на специфическую транскрипцию генов, принимает участие в метаболизме трехалозы и ответе на осмотический стресс.
TreR cуществует в виде гомодимера, составленного из двух доменов: амино-концевой домен, содержащий ДНК-связывающий мотив по типу спираль-поворот-спираль, и карбокси-концевой домен, принимающий участие в эффекторном узнавании.
Этот транскрипционный фактор-регулятор принадлежит к семейству LacI/GalR (и надсемейству HutC).
Второй этап: создание множественного выравнивания доменов с разметкой по группам специфичности
1. Создание хорошего множественного выравнивания доменов заданной группы белков ( ДНК-связывающих доменов белков группы специфичности trer)
  Построим множественное выравнивание ДНК-связывающий доменов группы специфичности trer. Для этого найдем на сайте БД InterPro картинку со всеми мотивами для белка-прототипа TreR_Ecoli. Она выглядит так:
  
  Синим на ней отмечен эффекторсвязывающий домен, красным - ДНК-связывающий домен.
  Используем домены из БД SMART, так как длина ДНК-связывающего домена из БД SMART превосходит длины ДНК-связывающих доменов из других баз. Таким образом, мы получим больше информации. Единственное, мы можем частично захватить участок, соединяющий домены. В таком случае его можно будет впоследствии "отрезать". Если бы были выбраны домены из другой БД, то часть информации, возможно, была бы потеряна.
  Представительское выравнивание сохранено в файл SMART.fasta
  
  Последовательности всех бактериальных белков, содержащих домены данного семейства, были сохранены в формате FASTA в файл all_proteins.fasta.
  
  Исследуемая специфичность: trer
  Был получен список идентификаторов последовательностей, предположительно обладающих данной специфичностью.
  Было обнаружено, что в файле all_proteins.fasta, полученном из БД SMART, отсутствует часть белков, указанных в списке идентификаторов последовательностей, предположительно обладающих данной специфичностью.
  Эти две недостающие последовательности были вручную получены из БД UniProt и сохранены в файл add.txt.
  
  Был запущен скрипт:
```
#!/bin/bash

for i in `cat trer.txt`; do

grep -A 4 ${i} all_proteins.fasta >> dna_trer.fasta

done
```
  Данный скрипт ищет в файле all_proteins.fasta последовательности из списка, лежащего в файле trer.txt.
  К данному файлу был приписан файл add.txt, содержащий недостающие последовательности:
```
more add.txt >> dna_trer.fasta
```
  Выдача скрипта: файл dna_trer.fasta
  С помощью программы ClustalW2 последовательности белков, содержащих нужные ДНК-связывающие домены были выровнены под профиль представительского выравнивания SMART.fasta. Были получен файл с выравниванием.
  
  Из файла с выравниванием были вырезаны представительские последовательности и позиции выравнивания, на которых нет ДНК-связывающего домена. Полученное выравнивание было сохранено в файл dna_trer.cw2.excised.fasta
2. Создание единого множественного выравнивания заданных доменов всех групп специфичности (ДНК-связывающего домена)
  Импортируем в GeneDoc выравнивания ДНК-связывающих доменов (группы специфичности trer) и объявим эти последовательности новой группой (кнопка меню "Groups=>Edit sequence groups"). Назовем группу именем группы специфичности (trer).
  Зададим цвет для маркировки последовательностей этой группы. Пусть группа будет выделена розовым цветом.
  После этого последовательно добавим по одному выравниванию доменов с разной специфичностью, каждый раз объявляя новую группу. Получим раскраску по группам.
  Просмотреть выравнивание в виде изображения.
  Выравнивание сохранено в файле vse_gruppi_specifichnosti.msf.
  
  Последовательности доменов заданной группы специфичности trer расположены наверху, названия содержащих их белков окрашены в розовый цвет. В другие цвета окрашены названия белков, содержащих домены разных групп специфичности (названия белков с доменами группы специфичности frur окрашены в зеленый цвет;
  purr - в фиолетовый цвет;
  galrs - в темно-синий цвет;
  mali - в серый цвет;
  laci - в красный цвет;
  rbsr - в голубой цвет;
  thur-rafr - в болотный цвет;
  scrr - в желтый цвет;
  gntr - в голубо-синий цвет).
  Колонки букв, окрашенные цветом, совпадающим с цветом названия белков, указывают на позиции, консервативные в доменах соответствующей группы специфичности.
  Позиции, консервативные для всего выравнивания: серин 19, лейцин/изолейцин/валин/метионин 22, валин/изолейцин 39, тирозин/фенилаланин 48,- окрашены в черный цвет.
  Было найдено всего 2 позиции, консервативные в доменах группы специфичности trer, содержащие остатки, консервативные в данной позиции лишь в доменах группы специфичности trer, но в которой стояли бы другие остатки в других группах. Это 55 серин и 59 метионин.
3. Создание лого-изображений полного выравнивания заданного ДНК-связывающего домена и выравнивания доменов заданной группы специфичности (trer)
По полному выравниванию ДНК-связывающих доменов было создано лого-изображение с помощью WebLogo.
Лого-изображения выравнивания ДНК-связывающих доменов всех групп специфичности:

Лого-изображения выравнивания ДНК-связывающих доменов заданной группы специфичности (trer):

"Поиск белка с заданной функциональной специфичностью (продолжение)."
До этого было получено выравнивание ДНК-связывающего домена группы специфичности trer. На основании сравнения с общим выравниванием доменов из разных групп специфичности, были определены консервативные и специфичные только для этой группы позиции.

Далее по этим выравниваниям dna_trer.cw2.excised.fasta и dna_trer.fasta был построен профиль.

1. C помощью программы pfw к выравниваниям добавим веса:
```
pfw -m dna_trer.cw2.excised.fasta > dna_trer.cw2.excised.pfw.fasta
```
2. C помощью команды pfmake построили профиль:
```
pfmake -m dna_trer.cw2.excised.pfw.fasta /usr/share/pftools23/blosum45.cmp > dna_trer.cw2.excised.pfw.pfmake.pfl
```
3. С помощью команды autoscale нормируем полученный выше профиль относительно случайной базы:
```
autoscale -m dna_trer.cw2.excised.pfw.pfmake.pfl > dna_trer.cw2.excised.pfw.pfmake.scaled.pfl
```
4. С помощью программы pfsearch проведем поиск по протеому по профилям.
Дан файл Pantoea.fasta, по которому и будем осуществлять поиск:
```
 pfsearch -f dna_trer.cw2.excised.pfw.pfmake.scaled.pfl Pantoea.fasta >  search_prf.fasta
```
5. Был получен файл с последовательностями находок. Всего нашлось 23 белка. С помощью программы ClustalW2 последовательности найденных белков (их 23) были выровнены с ДНК-связывающими доменами группы специфичности trer. Далее выравнивание было импортировано в Gendoc.
Получили файл.

Изображение выравнивания:

Зеленым выделены ДНК-связывающие домены группы специфичности trer.
Снизу расположены последовательности 23 белковых находок.

Данные находки вряд ли принадлежат к группе специфичности trer, т.к. они, как минимум, не содержат специфических позиций, характерных для данной группы специфичности, т.е. уже на этом этапе они не проходят отбор.

Поиск белка с заданной функциональной специфичностью

Первый этап: описание функциональных особенностей заданной группы

Второй этап: создание множественного выравнивания доменов с разметкой по группам специфичности

Создание хорошего множественного выравнивания доменов заданной группы белков ( ДНК-связывающих доменов белков группы специфичности trer)

Создание единого множественного выравнивания заданных доменов всех групп специфичности (ДНК-связывающего домена)

Создание лого-изображений полного выравнивания заданного ДНК-связывающего домена и выравнивания доменов заданной группы специфичности (trer)

"Поиск белка с заданной функциональной специфичностью (продолжение)."