Поиск белка с заданной функциональной специфичностью

Задача - определить, есть ли белок с заданной специфичностью (trer) в заданном протеоме.
  1. Первый этап: описание функциональных особенностей заданной группы

    Заданный белок-прототип TreR_Ecoli выделен из кишечной палочки, значит, можно посмотреть описание его свойств на сайте EcoCyc.

    Итак, заданный белок - репрессор транскрипции (TreR transcriptional repressor).

    Имя гена - treR, длина последовательности - 315 аминокислотных остатка.
    Действует как репрессор оперонов, вовлеченных в фукозный транспорт и расщепление при осмотическом стрессе.

    В присутствии трехалозо-6-фосфата и при низком уровне осмотического давления TreR вновь активирует (дерепрессирует) оперон, зависящий от транспорта трехалозы и ее катаболизма.

    Трехалоза - это дисахарид глюкозы, в котором две глюкозы связаны посредством ?,?-1,1-связи.


    Найдем в БД KEGG LIGAND структурную формулу трехалозы:

    Этот достаточно простой сахар широко распространен среди бактерий, дрожжей, грибов, нематод, насекомых, растений и т.д.

    Может выполнять несколько ключевых функций:
    1) служит хранилищем энергии и углерода;
    2) является стабилизатором и защитным средством для клеточных мембран и белков во время стресса;
    3) служит сигнальной молекулой;
    4) это структурный компонент различных гликолипидов в клеточных стенках бактерий.
    Существует по крайней мере 3 различных пути синтеза трехалозы, что подтверждает необходимость ее наличия для выживания организма.

    Стоит отметить, что термины GO из онтологии Cellular Component - "внутриклеточный" (intracellular) и цитоплазматический (cytoplasm).

    Термины из онтологии Molecular Function дают информацию о том, что белок связывается с другим белком и проявляет специфическую репрессорную транскрипционную активность.

    Термины из онтологии Biological Process уточняют, что белок участвует в регуляции транскрипции, отрицательно влияет на специфическую транскрипцию генов, принимает участие в метаболизме трехалозы и ответе на осмотический стресс.

    TreR cуществует в виде гомодимера, составленного из двух доменов: амино-концевой домен, содержащий ДНК-связывающий мотив по типу спираль-поворот-спираль, и карбокси-концевой домен, принимающий участие в эффекторном узнавании.

    Этот транскрипционный фактор-регулятор принадлежит к семейству LacI/GalR (и надсемейству HutC).

  2. Второй этап: создание множественного выравнивания доменов с разметкой по группам специфичности

    1. Создание хорошего множественного выравнивания доменов заданной группы белков ( ДНК-связывающих доменов белков группы специфичности trer)

      Построим множественное выравнивание ДНК-связывающий доменов группы специфичности trer. Для этого найдем на сайте БД InterPro картинку со всеми мотивами для белка-прототипа TreR_Ecoli. Она выглядит так:

      Синим на ней отмечен эффекторсвязывающий домен, красным - ДНК-связывающий домен.
      Используем домены из БД SMART, так как длина ДНК-связывающего домена из БД SMART превосходит длины ДНК-связывающих доменов из других баз. Таким образом, мы получим больше информации. Единственное, мы можем частично захватить участок, соединяющий домены. В таком случае его можно будет впоследствии "отрезать". Если бы были выбраны домены из другой БД, то часть информации, возможно, была бы потеряна.
      Представительское выравнивание сохранено в файл SMART.fasta

      Последовательности всех бактериальных белков, содержащих домены данного семейства, были сохранены в формате FASTA в файл all_proteins.fasta.

      Исследуемая специфичность: trer
      Был получен список идентификаторов последовательностей, предположительно обладающих данной специфичностью.
      Было обнаружено, что в файле all_proteins.fasta, полученном из БД SMART, отсутствует часть белков, указанных в списке идентификаторов последовательностей, предположительно обладающих данной специфичностью.
      Эти две недостающие последовательности были вручную получены из БД UniProt и сохранены в файл add.txt.

      Был запущен скрипт:
      #!/bin/bash
      
      for i in `cat trer.txt`; do
      
      grep -A 4 ${i} all_proteins.fasta >> dna_trer.fasta
      
      done
      
      Данный скрипт ищет в файле all_proteins.fasta последовательности из списка, лежащего в файле trer.txt.
      К данному файлу был приписан файл add.txt, содержащий недостающие последовательности:
      more add.txt >> dna_trer.fasta
      

      Выдача скрипта: файл dna_trer.fasta

      С помощью программы ClustalW2 последовательности белков, содержащих нужные ДНК-связывающие домены были выровнены под профиль представительского выравнивания SMART.fasta. Были получен файл с выравниванием.

      Из файла с выравниванием были вырезаны представительские последовательности и позиции выравнивания, на которых нет ДНК-связывающего домена. Полученное выравнивание было сохранено в файл dna_trer.cw2.excised.fasta

    2. Создание единого множественного выравнивания заданных доменов всех групп специфичности (ДНК-связывающего домена)

      Импортируем в GeneDoc выравнивания ДНК-связывающих доменов (группы специфичности trer) и объявим эти последовательности новой группой (кнопка меню "Groups=>Edit sequence groups"). Назовем группу именем группы специфичности (trer).

      Зададим цвет для маркировки последовательностей этой группы. Пусть группа будет выделена розовым цветом.

      После этого последовательно добавим по одному выравниванию доменов с разной специфичностью, каждый раз объявляя новую группу. Получим раскраску по группам.

      Просмотреть выравнивание в виде изображения.
      Выравнивание сохранено в файле vse_gruppi_specifichnosti.msf.

      Последовательности доменов заданной группы специфичности trer расположены наверху, названия содержащих их белков окрашены в розовый цвет. В другие цвета окрашены названия белков, содержащих домены разных групп специфичности (названия белков с доменами группы специфичности frur окрашены в зеленый цвет;

      purr - в фиолетовый цвет;

      galrs - в темно-синий цвет;

      mali - в серый цвет;

      laci - в красный цвет;

      rbsr - в голубой цвет;

      thur-rafr - в болотный цвет;

      scrr - в желтый цвет;

      gntr - в голубо-синий цвет).

      Колонки букв, окрашенные цветом, совпадающим с цветом названия белков, указывают на позиции, консервативные в доменах соответствующей группы специфичности.

      Позиции, консервативные для всего выравнивания: серин 19, лейцин/изолейцин/валин/метионин 22, валин/изолейцин 39, тирозин/фенилаланин 48,- окрашены в черный цвет.

      Было найдено всего 2 позиции, консервативные в доменах группы специфичности trer, содержащие остатки, консервативные в данной позиции лишь в доменах группы специфичности trer, но в которой стояли бы другие остатки в других группах. Это 55 серин и 59 метионин.

    3. Создание лого-изображений полного выравнивания заданного ДНК-связывающего домена и выравнивания доменов заданной группы специфичности (trer)

    По полному выравниванию ДНК-связывающих доменов было создано лого-изображение с помощью WebLogo.

    Лого-изображения выравнивания ДНК-связывающих доменов всех групп специфичности:

    Лого-изображения выравнивания ДНК-связывающих доменов заданной группы специфичности (trer):

    "Поиск белка с заданной функциональной специфичностью (продолжение)."

    До этого было получено выравнивание ДНК-связывающего домена группы специфичности trer. На основании сравнения с общим выравниванием доменов из разных групп специфичности, были определены консервативные и специфичные только для этой группы позиции.

    Далее по этим выравниваниям dna_trer.cw2.excised.fasta и dna_trer.fasta был построен профиль.

    1. C помощью программы pfw к выравниваниям добавим веса:
    
    pfw -m dna_trer.cw2.excised.fasta > dna_trer.cw2.excised.pfw.fasta
    
    2. C помощью команды pfmake построили профиль:
    pfmake -m dna_trer.cw2.excised.pfw.fasta /usr/share/pftools23/blosum45.cmp > dna_trer.cw2.excised.pfw.pfmake.pfl
    
    3. С помощью команды autoscale нормируем полученный выше профиль относительно случайной базы:
    autoscale -m dna_trer.cw2.excised.pfw.pfmake.pfl > dna_trer.cw2.excised.pfw.pfmake.scaled.pfl
    
    4. С помощью программы pfsearch проведем поиск по протеому по профилям.

    Дан файл Pantoea.fasta, по которому и будем осуществлять поиск:

     pfsearch -f dna_trer.cw2.excised.pfw.pfmake.scaled.pfl Pantoea.fasta >  search_prf.fasta
    
    5. Был получен файл с последовательностями находок. Всего нашлось 23 белка. С помощью программы ClustalW2 последовательности найденных белков (их 23) были выровнены с ДНК-связывающими доменами группы специфичности trer. Далее выравнивание было импортировано в Gendoc.
    Получили файл.


    Изображение выравнивания:

    Зеленым выделены ДНК-связывающие домены группы специфичности trer.
    Снизу расположены последовательности 23 белковых находок.

    Данные находки вряд ли принадлежат к группе специфичности trer, т.к. они, как минимум, не содержат специфических позиций, характерных для данной группы специфичности, т.е. уже на этом этапе они не проходят отбор.