Пакет Pftools

На Главную
Четвертый семестр
     

Семейство Субтилаз.

В Pfam : Peptidase_S8 (PF00082)
В ProSite : PS00138
Субтилазы - семейство субтилизин-подобных протеиназ бактерий, архей, эукариот и даже вирусов. Рассмотрим подсемейство субтилаз бактериального происхождения.

Паттерн в Prosite : G-T-S-x-[SA]-x-P-x-{L}-[STAVC]-[AG]
Из UniProt 16 случайно выбанных последовательностей бактериальных белков : subt.msf



Рассчет веса строк выравнивания с помощью pfw

UNIX-овый конец строки c noreturn subt_nr.msf
Программа pfm изменяет значение весов последовательностей (в исходном файле все значения весов были равны 1.0) pfw_res

Создание профиля программой pfmake.

 pfmake pfw_res /usr/share/pftools23/blosum62.cmp 
В результате получен файл с частотной матрицей : pfmake_res

Нормировка профиля

"фальшивый поиск", чтобы получить типичные значения веса профиля на случайных последовательностях :
 pfsearch -C0.0 -f my.prf shuffled.fasta | sort -n > scores.txt

нормировка профиля программой pfscale :
 pfscale scores.txt my.prf > scaled.prf
scaled.prf

Поиск по профилю

Поиск по профилю программой pfsearch:
pfsearch -C3.0 -f scaled.prf bacteria.fasta > subt.pfsearch
 
subt.pfsearch

С помощью паттерна PS00138 из ProSite находится 51 последовательность.
Число верных находок ("True positive hits", TP) = 50;
Число ложных находок ("False positive hits", FP) = 2;
Число ненайденных белков подсемейства ("False negatives", FN) = 1;
Чувствительность TP/(TP+FN) = 98%;
Селективность TP/(TP+FP) = 96%;
Получился паттерн с высокой селективностью и чувствительностью.