Занятие 11. Банк Prosite. Паттерн и профиль подсемейства.

 
     

    Упр. 1. Поиск и описание паттерна рибосомального белка RS19_ECOLI

      В результате поиска на сайте Expasy в рибосомальном белке RS19_ECOLI найден 1 паттерн RIBOSOMAL_S19 с номером записи Prosite PS00323. Его консенсусный паттерн:

      [STDNQ] - G - [KRNQMHSI] - x(6) - [LIVM] - x(4) - [LIVMC] - [GSD] - x(2) - [LFI] - [GAS] - [DE] - [FYM] - x(2) - [ST]

      Рибосомальный белок S 19 - один из белков малой субъединицы рибосомы. Известно, что у бактерии Escherichia coli S 19 формирует комплекс с белком S 13, который прочно соединен с 16S рибосомальной РНК. S 19 пренадлежит семейству рибосомальных белков, которое, на основании схожести последовательности, включает:

    1. S 19 эубактерий
    2. S 19 хлоропластов растений и водорослей
    3. S 19 цианобактерий
    4. S 19 архебактерий
    5. S 19 растительных митохондрий
    6. Эукариотическая S15 (сборочный белок)
    7. S 19 - белок, содержащий от 88 до 144 аминокислотных остатков. Характеристический паттерн основан на небольшом количестве консервативных позиций, расположенных на С-концвом участке белка.

      Все последовательности семейства находятся в банке SwissProt, лишние находки отсутствуют.

      Все файлы, относящиеся к этому занятию лежат в директории H:\Term4\Practice11.

    Упр. 2. Создание паттерна для поиска белков подсемейства.

      В результате поиска паттерном по белкам гаммапротеобактерий, представленным в Swiss-Prot найдено 124 находки. Созданы две выборки белков из гаммапротеобактерий: Actinobacillus succinogenes, Alcanivorax borkumensis, Blochmannia floridanus, Idiomarina loihiensis, Legionella pneumophila, Pasteurella multocida, Pseudomonas putida,

      и из разных бактерий: Brucella abortus (Alphaproteobacteria), Verminephrobacter eiseniae (Betaproteobacteria), Prochlorococcus marinus (Cyanobactreia), Frankia alni (Actinobacteria), Clostridium botulinum (Firmicutes)

      На основе выравнивания (рис. 1.) и с помощью возможностей сайта Prosite был составлен паттерн

      [HL]-x(8)-[AIV]-x(2)-[SKNVAT]-[GN]-[DSEK]-x(28)-[HDQVNSE]-x(4)-[IVYFML]-x(3)-[DEGNH]-x(9)-[VSA]-[LIVAPMG]-x(7)-[SAGCFV]-[GVA]-x(3)-[IAS]

      В результате поиска по всем бактериям в список находок созданного паттерна попало 88 белков. Все они есть в списке находок исходного паттерна. Сравнение проводилось с помощью Perl-скрипта*, который выдает число совпадений находок по составленному паттерну с находками по исходному паттерну в поле hits.

      Рис. 1. Множественное выравнивание аминокислотных последовательностей белков RS19_ECOLI. Зеленым цветом обозначена группа белков гаммапротеобактерий. Коричневым - консервативные позиции в группе гаммапротеобактерий.

      Для составления паттерна с целью добиться лучшего результата к выборке последовательностей белка RS19_ECOLI из гаммапротеобактерий добавлены еще несколько последовательностей.

    Упр. 3. Создание профиля для поиска белков подсемейства и оценка его качества.

      Подходящий участок выравнивания сохранен в файле profile.msf в директории H:\Term4\Practice11. С помощью команд UNIX:

      noreturn profile.msf profile.noreturn.msf - замена символы конца строки файла, созданного в Windows, на принятые в UNIX

      pfw profile.noreturn.msf > profile.weighted.msf - рассчет веса последовательностей выборки

      pfmake profile.weighted.msf /usr/share/pftools23/blosum45.cmp > profile.prf - создание профиля, который затем был отредактирован вручную в функционально значимых позициях

      autoscale -m profile.prf > profile.scaled.prf - нормируйте профиля

      seqret sw-org:bacteria bacteria.fasta - подготовка файла с последовательностями для поиска

      pfsearch -с6.2 -f profile.scaled.prf bacteria.fasta > profile.pfsearch - поиск по профилю

      на сервере codomo-count получен профиль и подогнан по бактериальным белкам Swiss-Prot. В результате поиска по профилю получено 477 последовательностей, из которых 119 - "правильные". При пороге веса 37 находится 101 последовательность, принадлежащая подсемейству, и ничего лишнего. Результат получен в программе Excel при помощи функции ВПР.

      Обсуждение результатов и комментарии.

    1. Получение паттерна заняло много времени, но результат далёк от идеала - найдено 88 последовательностей из положенных 124. Несмотря на это, результат чист - не найдено лишних находок. При попытке что-то исправить в паттерне с целью улучшения результата число правильных находок уменьшается, либо увеличивается, но с резким увеличением чистоты результата. По-видимому, это связано с изобилием консервативных позиций в множественном выравнивании.
    2. Результат по профилю получился достаточно чистым - выше порога веса 37 не найдено лишних последовательностей.

*Автор - Степнов Иван. Скрипт взят со специального разрешения. Все авторские права соблюдены.

© Лукин Сергей­