Пакет Pftools


1.Приготовка входного файла в формате msf

Так как pftools (в отличие от программ пакета EMBOSS) не умеет работать с файлами, имеющими конец строки, принятый в Windows, поэтому были изменены признаки конца строки на UNIX-вые с помощью команды noreturn пакета EMBOSS:

noreturn
Remove carriage return from ASCII files
ASCII text file: prof_bact_pat.msf
ASCII text output file [prof_bact_pat.noreturn]:

2. Расчёт веса строк выравнивания программой pfw

pfw вычисляет новые веса для отдельных последовательностей в многократном выравнивании последовательности.

pfw prof_bact_pat.noreturn > prof_b_p_n_pfw.msf

В полученном файле, соответственно, веса разных последовательностей отличны от 1 (в отличие от файла, поданного на вход программе).

3. Создание профиля программой pfmake

pfmake делает профиль из множественного выравнивания.

pfmake prof_b_p_n_pfw.msf blosum62.cmp > prof_b_p_n_pfmake.msf

Полученный файл содержит некоторую матрицу, составляющую профиль. На 5 строке записан алфавит (порядок аминокислот). В матрице после "SY = " указана аминокислота, которая чаще всего в этой позиции встречается. В каждой строке подряд идут числа, которые означают веса аминокислот в данной строке (=позиции; числа в том же порядке, что и аминокислоты в алфавите). После надписи "SY=", соответственно, идёт аминокислота, у которой самый большой вес в строке.

4. Проверка профиля

Профиль, выданный программой полностью удовлетворяет составленному паттерну: [KR]-G-[KH]-G-X-Q-G-X-I-X-R-X(3)-{R}-R-G-P-[ME].
Поэтому никакие изменения не производились.

5. Подготовка файла с последовательностями в fasta-формате, в которых будет проводиться поиск

Для поиска во всех бактериальных последовательностях использовалась следующая команда:

seqret sw-org:bacteria bacteria.fasta

6. Нормирование профиля

Процедура нормировки меняет формулу пересчёта обычной суммы весов в так называемый нормированный вес, что облегчает установку порога для данного профиля. Для нормировки требуется сгенерировать случайный банк того же размера, что и мой, с помощью программы shuffleseq:

shuffleseq sw-org:bacteria shuffled.fasta

Далее был проведён "фальшивый поиск" для получения типичных значений веса профиля на случайных последовательностях:

pfsearch -C0.0 -f prof_b_p_n_pfmake.msf shuffled.fasta | sort -n > scores.txt

Затем была проведена нормировка профиля программой pfscale:

pfscale scores.txt prof_b_p_n_pfmake.msf > scaled.prf

Полученный файл абсолютно идентичен исходному.

7. Поиск по профилю

pfsearch сравнивает профиль с библиотекой последовательностей ДНК/белков.

pfsearch -C2.5 -f my.prf bacteria.fasta > my.pfsearch

Был установлен порог, равный 2,5. Кол-во находок - 966.

8. Анализ результатов

Файл Excel

Число верных находок ("True positive hits", TP) - 126
Число ложных находок ("False positive hits", FP) - 840
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN) - 17
Чувствительность TP/(TP+FN) - 0,88
Селективность TP/(TP+FP) - 0,13

ROC-кривая





© Dzama Margarita, 2010-2011