Пакет Pftools.

На страничку четвертого семестра



1. Подготовка входного файла:
Для выполнения заданий я испольовала то же выравнивание, что и в предыдущих заданиях:

Для подготовки входного файла я использовала команду noreturn -in 1.msf -out 2.msf
Полученное выравнивание в msf формате


2. Программа pfw:
Для расчета веса строк в выравнивании использована команда pfw -in 2.msf > 2.msf
Полученный файл отличается от входного тем, что в нем посчитаны веса строк, их значения отличны от единицы.


3. Программа pfmake:
Программа принимает на вход взыешенное выравнивание и выдает файл с профилем prosite.
pfmake 3.msf /usr/share/pftools23/blosum62.cmp > 4.prf


4. Подготовка файла с бактериальными последовательностями, в которых будет проводиться поиск.
seqret sw-org:bacteria bacteria.fasta

5. Нормировка профиля.
Генерирование случайного блока того же размера, что и данный:
shuffleseq sw-org:bacteria shuffled.fasta
Проведение "фальшивого поиска", для получения типичных значений веса профиля на случайных последовательностях:
pfsearch -C0.0 -f 4.prf shuffled.fasta | sort -n > scores.txt
Нормировка профиля:
pfscale scores.txt 4.prf > scaled.prf
К сожалению, провести нормировку профил не удалось.


6. Поиск по профилю.
pfsearch -C2.0 -f 4.prf bacteria.fasta > 5.pfsearch
Полученный файл.


7. Анализ данных.

Проводился поиск с порогом 2. Число находок - 9719 (с повторами участка в 1 белке). Число найденных белков с учетом того, что в одном белке может быть несколько находок - 9426.
Находок с весом больше 3 - 993.
Находок с весом больше 4 - 767.
Начиная с веса 6.05 находкой является белок 50S ribosomal protein L6.
Максимальный вес - 12.2

Файл Exсel с полученными находками.
1) True positive hits, TP: 136.
2) False positive hits, FP (ошибки первого рода): 9290.
3) False negatives, FN (ложноотрицательные результаты, ошибки второго рода): 1.
4) Чувствительность: 0,9999.
5) Селективность: 0,0144.


Селективность приблизительно равна селективности паттерна (88%) при пороге от 11.
Чувствительность pftools приближается к 1 (99,99%), что намного выше чувствительности паттерна.
Однако находка с самым большим весом не принадлежит семейству, что очень странно на мой взгляд.

© Karavaeva Julia 2009