Рекомендуемая структура директорий

Term_4

Credit_1 (файл ReadMe с названием семейства и, если нужно, комментариями о том что где лежит)

Texts (содержит Protocol, Referat и др. собственные тексты)

InTexts (содержит тексты статей, информацию из интернета и т.п.)

Sequences (все последовательности выборки)

Fasta (полная выборка посл-й в fasta формате и ничего больше)

msf (выравнивания полных посл-й семейства, отдельных доменов, подсемейств)

Detectors (детекторы семейств и подсемейств)

Pattern (файлы *.pat с паттернами, *.fuzzpro с результатами их применений)

HMM (файлы *.hmm с профилями, *.hmmscan с результатами)

Pftools (*.pf, *.pfscan)

3D (трехмерные структуры белков семейства)

Data (xls таблицы и др. файлы со сводными результатами)

Temp (для промежуточных файлов на сеанс работы; мое правило: садясь за компьютер, из этой моей директории могу удалить все файлы не разбираясь. А.Ал.)

Обязательная практическая работа с семейством

Рассчитано на 6 занятий.

Последовательность действий может отличаться от описанной ниже!

Дано: определение семейства FFFF, его "суперсемейства" (более широкого), подсемейства.

Работа

Файл (-ы)

Директория

Примечания

         

1

Описать распространенность суперсемейства и семейства по таксонам

Referat.doc

Texts

Pfam

2

Описать варианты доменного состава белков суперсемейства и семейства

Referat.doc

Texts

 

3

Составить выборку полноразмерных последовательностей семейства

FFFF.xls

*.fasta

Data

Sequences

На первом этапе: все последовательности из UniProt (sw+trembl), кроме содержащих в поле DE слово "Fragment"

4

Классифицировать белки семейства по аннотированной доменной структуре с указанием положения доменов в каждой последовательности

FFFF.xls

Data

Excel-таблица должна содержать: строки — белки, столбцы — домены, ячейки — от–до

5

Построить правдоподобное выравнивание полноразмерных последовательностей (*)

FFFF.msf

MSF

Используя GeneDoc. В качестве первого приближения разумно взять выдачу Clustal (emma); улучшения — ориентируясь на выравнивания доменов (из Pfam или того же Clustal)

6

Разметить выравнивание "по вертикали" (аннотированнные домены; участки достоверного выравнивания; консервативные участки)

FFFF.msf

MSF

Посредством специальных строк в GeneDoc.

7

Выделить подсемейство

FFFF.msf

FFFF.xls

MSF

Data

Покраска в GeneDoc.
Столбец в Excel.

8

Отметить в выравнивании консервативные позиции подсемейства

FFFF.msf

MSF

Как п.6

9

Найти и описать диагностические позиции подсемейства

FFFF.msf
Referat.doc

MSF
Texts

Как п. 8

10

Составить детекторы семейства – паттерн(ы), HMM-профиль, pftools-профиль. Протестировать их на SwissProt и на выборке представителей семейства

FFFF.pat, FFFF_sw.fuzzpro, FFFF_fam.fuzzpro
....(аналогично)...

Referat.doc

Patterns


HMM, Pftools

Texts

Для каждого метода: файл с паттерном (профилем), результаты сканирования SwissProt, рез-ты сканирования членов семейства. В реферате привести показатели качества детектора.

11

Составить детектор(ы) подсемейства в семействе. Протестировать его (их) на выборке представителей семейства.

Логичные названия, указанные в реферате.

Referat.doc

Patterns, HMM, Pftools



Texts

Аналогично п. 10. В реферате ясно написать, насколько детектор способен выделить подсемейство из семейства.

12

Создать изображение 3D-структуры домена одного из представителей семейства (или суперсемейства) с покрашенным консервативным участком (желательно — активным центром фермента).

FFFF.gif
XXXX.ent

Referat.doc

3D


Texts

RasMol
XXXX = PDB-код


В реферате должно быть указано, что за домен, что за белок, PDB-код, что за участок (в нумерациях SwissProt и PDB)

13

Перечислить функциональные группы а.о., использованные в работе

Referat.doc

Texts