- Подготовка входного файла в формате msf
Pftools (в отличие от программ пакета EMBOSS) не умеет работать с файлами, имеющими
конец строки, принятый в Windows! Поэтому,необходимо поменять признаки конца строки на UNIX-вые.
Это можно сделать командой noreturn пакета EMBOSS или программой tr, входящей в Linux.
noreturn -infile Gene20.msf -system unix -outfile Gene20_unix.msf
- Рассчет веса строк выравнивания программой pfw
pfw Gene20_unix.msf
Полученный файл отличается от исходного тем,что изменились веса( в исходном были равны=1.0)
- Создание профиля программой pfmake
Использовались взвешенное выравнивание и матрица /usr/share/pftools23/blosum62.cmp
pfmake Gene22_unix.msf /usr/share/pftools23/blosum62.cmp
Профиль
- Проверка профиля
Корректировка функционально значимых позиций не потребовалась.
- Подготовка файла с последовательностями в fasta-формате,
в которых будет проводиться поиск
seqret sw-org:bacteria bacteria.fasta
- Нормировка профиля
Процедура нормировки меняет формулу пересчёта
обычной суммы весов в так называемый нормированный вес,
что облегчает установку порога для данного профиля.
Для нормировки прежде всего нужно сгенерировать случайный банк того же
размера, что и банк последовательностей бактерий. Это делается программой shuffleseq.
shuffleseq sw-org:bacteria shuffled.fasta
Далее нужно было провести "фальшивый поиск", чтобы получить типичные
значения веса профиля на случайных последовательностях:
pfsearch -C0.0 -f Gene22_unix.pfmake shuffled.fasta | sort -n > scores.txt
и затем собственно нормировку профиля программой pfscale:
pfscale scores.txt > scaled.prf
Произошла ошибка, нормированный профиль получить не удалось.
- Поиск по профилю
pfsearch -C3.0 -f Gene22_unix.pfmake bacteria.fasta > my.pfsearch
Здесь -f показывает, что банк имеет формат fasta, а -C3.0
-
что мы просим выдать все находки с нормализованным весом более 1.
Файл Excel с находками.
- Анализ результатов
Был установлен порог 3.0(в других случаях команда выдавала либо слишком много находок, либо ничего).
Характеристики списка найденных белков:
- Число верных находок ("True positive hits", TP, то есть тех, которые присутствуют как в списке находок, так и в списке белков подсемейства):142
- Число ложных находок ("False positive hits", FP : белков, не принадлежащих подсемейству, но попавших в список находок; они же ошибки первого рода):644
- Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN), или ошибок второго рода:0
- Чувствительность TP/(TP+FN):1
- Селективность TP/(TP+FP):0,181
Исходя из полученных результатов, следует отметить,что селективность и чувствительность профиля, построенного с помощью пакета Pftools выше,чем у предыдущего профиля. Профиль находит все нужные белки.
Главная страница
Страница четвертого семестра
© Naraykina Yulya,2011