Пакет Pftools

Задача: построить (с помощью пакета Pftools) профиль для своего семейства и описать его характеристики (ROC-кривую, а также селективность и чувствительность при некотором пороге) при поиске им в последовательностях бактерий из Swiss-Prot.
Для выполнения этой задачи было взято то же выравнивание, что и в предыдущем задании .

Этапы работы

  1. Подготовка входного файла в формате msf
  2. Pftools (в отличие от программ пакета EMBOSS) не умеет работать с файлами, имеющими конец строки, принятый в Windows! Поэтому,необходимо поменять признаки конца строки на UNIX-вые. Это можно сделать командой noreturn пакета EMBOSS или программой tr, входящей в Linux.
    noreturn -infile Gene20.msf -system unix -outfile Gene20_unix.msf 

  3. Рассчет веса строк выравнивания программой pfw
  4.  pfw Gene20_unix.msf 

    Полученный файл отличается от исходного тем,что изменились веса( в исходном были равны=1.0)

  5. Создание профиля программой pfmake
  6. Использовались взвешенное выравнивание и матрица
    /usr/share/pftools23/blosum62.cmp
    pfmake Gene22_unix.msf /usr/share/pftools23/blosum62.cmp 
    Профиль

  7. Проверка профиля
  8. Корректировка функционально значимых позиций не потребовалась.

  9. Подготовка файла с последовательностями в fasta-формате, в которых будет проводиться поиск
  10. seqret sw-org:bacteria bacteria.fasta
    

  11. Нормировка профиля
  12. Процедура нормировки меняет формулу пересчёта обычной суммы весов в так называемый нормированный вес, что облегчает установку порога для данного профиля. Для нормировки прежде всего нужно сгенерировать случайный банк того же размера, что и банк последовательностей бактерий. Это делается программой shuffleseq.
    shuffleseq sw-org:bacteria shuffled.fasta
    
    Далее нужно было провести "фальшивый поиск", чтобы получить типичные значения веса профиля на случайных последовательностях:
    pfsearch -C0.0 -f Gene22_unix.pfmake shuffled.fasta | sort -n > scores.txt
    
    
    и затем собственно нормировку профиля программой pfscale:
    pfscale scores.txt  > scaled.prf
    
    Произошла ошибка, нормированный профиль получить не удалось.

  13. Поиск по профилю
  14. pfsearch -C3.0 -f Gene22_unix.pfmake bacteria.fasta > my.pfsearch
    
    Здесь -f показывает, что банк имеет формат fasta, а -C3.0 - что мы просим выдать все находки с нормализованным весом более 1.
    Файл Excel с находками.

  15. Анализ результатов
  16. Был установлен порог 3.0(в других случаях команда выдавала либо слишком много находок, либо ничего).
    Характеристики списка найденных белков:
    1. Число верных находок ("True positive hits", TP, то есть тех, которые присутствуют как в списке находок, так и в списке белков подсемейства):142
    2. Число ложных находок ("False positive hits", FP : белков, не принадлежащих подсемейству, но попавших в список находок; они же ошибки первого рода):644
    3. Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN), или ошибок второго рода:0
    4. Чувствительность TP/(TP+FN):1
    5. Селективность TP/(TP+FP):0,181


      Исходя из полученных результатов, следует отметить,что селективность и чувствительность профиля, построенного с помощью пакета Pftools выше,чем у предыдущего профиля. Профиль находит все нужные белки.

    Главная страница
    Страница четвертого семестра


    © Naraykina Yulya,2011