Пакет Pftools

Задача: построить (с помощью пакета Pftools) профиль для своего семейства и описать его характеристики (ROC-кривую, а также селективность и чувствительность при некотором пороге) при поиске им в последовательностях бактерий из Swiss-Prot.
Для выполнения этой задачи было взято то же выравнивание, что и в предыдущем задании .

Этапы работы

Подготовка входного файла в формате msf

noreturn

noreturn -infile Gene20.msf -system unix -outfile Gene20_unix.msf

Рассчет веса строк выравнивания программой pfw

 pfw Gene20_unix.msf

Полученный файл

Создание профиля программой pfmake

/usr/share/pftools23/blosum62.cmp

pfmake Gene22_unix.msf /usr/share/pftools23/blosum62.cmp

Профиль

Проверка профиля

Подготовка файла с последовательностями в fasta-формате, в которых будет проводиться поиск

seqret sw-org:bacteria bacteria.fasta

Нормировка профиля

shuffleseq

shuffleseq sw-org:bacteria shuffled.fasta

pfsearch -C0.0 -f Gene22_unix.pfmake shuffled.fasta | sort -n > scores.txt

pfscale

pfscale scores.txt  > scaled.prf

Поиск по профилю

pfsearch -C3.0 -f Gene22_unix.pfmake bacteria.fasta > my.pfsearch

-f

-C3.0

Файл Excel с находками.

Анализ результатов

Число верных находок ("True positive hits", TP, то есть тех, которые присутствуют как в списке находок, так и в списке белков подсемейства):142
Число ложных находок ("False positive hits", FP : белков, не принадлежащих подсемейству, но попавших в список находок; они же ошибки первого рода):644
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN), или ошибок второго рода:0
Чувствительность TP/(TP+FN):1
Селективность TP/(TP+FP):0,181

Исходя из полученных результатов, следует отметить,что селективность и чувствительность профиля, построенного с помощью пакета Pftools выше,чем у предыдущего профиля. Профиль находит все нужные белки.

Главная страница
Страница четвертого семестра