Занятие 11. Банк Prosite. Паттерн и профиль подсемейства. | ||||
Упр. 1. Поиск и описание паттерна рибосомального белка RS19_ECOLI
[STDNQ] - G - [KRNQMHSI] - x(6) - [LIVM] - x(4) - [LIVMC] - [GSD] - x(2) - [LFI] - [GAS] - [DE] - [FYM] - x(2) - [ST] Рибосомальный белок S 19 - один из белков малой субъединицы рибосомы. Известно, что у бактерии Escherichia coli S 19 формирует комплекс с белком S 13, который прочно соединен с 16S рибосомальной РНК. S 19 пренадлежит семейству рибосомальных белков, которое, на основании схожести последовательности, включает: S 19 - белок, содержащий от 88 до 144 аминокислотных остатков. Характеристический паттерн основан на небольшом количестве консервативных позиций, расположенных на С-концвом участке белка. Все последовательности семейства находятся в банке SwissProt, лишние находки отсутствуют. Все файлы, относящиеся к этому занятию лежат в директории H:\Term4\Practice11. Упр. 2. Создание паттерна для поиска белков подсемейства.
и из разных бактерий: Brucella abortus (Alphaproteobacteria), Verminephrobacter eiseniae (Betaproteobacteria), Prochlorococcus marinus (Cyanobactreia), Frankia alni (Actinobacteria), Clostridium botulinum (Firmicutes) На основе выравнивания (рис. 1.) и с помощью возможностей сайта Prosite был составлен паттерн [HL]-x(8)-[AIV]-x(2)-[SKNVAT]-[GN]-[DSEK]-x(28)-[HDQVNSE]-x(4)-[IVYFML]-x(3)-[DEGNH]-x(9)-[VSA]-[LIVAPMG]-x(7)-[SAGCFV]-[GVA]-x(3)-[IAS] В результате поиска по всем бактериям в список находок созданного паттерна попало 88 белков. Все они есть в списке находок исходного паттерна. Сравнение проводилось с помощью Perl-скрипта*, который выдает число совпадений находок по составленному паттерну с находками по исходному паттерну в поле hits.
Рис. 1. Множественное выравнивание аминокислотных последовательностей белков RS19_ECOLI. Зеленым цветом обозначена группа белков гаммапротеобактерий. Коричневым - консервативные позиции в группе гаммапротеобактерий. Для составления паттерна с целью добиться лучшего результата к выборке последовательностей белка RS19_ECOLI из гаммапротеобактерий добавлены еще несколько последовательностей. Упр. 3. Создание профиля для поиска белков подсемейства и оценка его качества.
noreturn profile.msf profile.noreturn.msf - замена символы конца строки файла, созданного в Windows, на принятые в UNIX pfw profile.noreturn.msf > profile.weighted.msf - рассчет веса последовательностей выборки pfmake profile.weighted.msf /usr/share/pftools23/blosum45.cmp > profile.prf - создание профиля, который затем был отредактирован вручную в функционально значимых позициях autoscale -m profile.prf > profile.scaled.prf - нормируйте профиля seqret sw-org:bacteria bacteria.fasta - подготовка файла с последовательностями для поиска pfsearch -с6.2 -f profile.scaled.prf bacteria.fasta > profile.pfsearch - поиск по профилю на сервере codomo-count получен профиль и подогнан по бактериальным белкам Swiss-Prot. В результате поиска по профилю получено 477 последовательностей, из которых 119 - "правильные". При пороге веса 37 находится 101 последовательность, принадлежащая подсемейству, и ничего лишнего. Результат получен в программе Excel при помощи функции ВПР. Обсуждение результатов и комментарии. *Автор - Степнов Иван. Скрипт взят со специального разрешения. Все авторские права соблюдены.© Лукин Сергей |