Упражнения по работе в пакете EMBOSS

Все команды выполняйте в специальной поддиректории на pvm. Не забывайте вести протокол. По окончании работы скопируйте все нужные файлы в соответствующую директорию на диске H.

Часто удобно использовать описания программ пакета EMBOSS на странице http://www.hgmp.mrc.ac.uk/Software/EMBOSS/ Ю Applications in EMBOSS Ю Groups of applications, далее по смыслу нужной программы. Информация, представленная там, та же, что дается программой tfm.

  1. Программой tmap предскажите трансмембранные участки в белке с номером доступа P49858. Сравните предсказание с тем, что использовано создателями этой записи SwissProt. Внесите в протокол описание (DE) белка, из какого он организма и число аминокислотных остатков а) правильно предсказанных программой tmap как трансмембранные; б) предсказанных как трансмембранные, но не являющиеся таковыми (если верить SwissProt); в) пропущенных программой tmap, но являющихся, согласно SwissProt, трансмембранными.

    Как бы вы оценили качество предсказания на этом примере?

    Подсказки. Программе tmap на вопрос "Graph type" следует отвечать "ps" (при этом возникает графический файл tmap.ps, который можно перенести на PC и открыть программой GhostView). Предсказание, использованное в SwissProt, можно посмотреть в поле FT записи; запись добывается программой entret.

  2. Создайте программой emma выравнивание всех белков (кроме фрагментов) из баз SwissProt и TrEMBL, имеющих в описании слово "cornichon". Переведите его во все форматы выравниваний, которые вы знаете.

    Подсказки. Список белков получаем командой

    infoseq sw-des:cornichon
    
    (соответственно trembl-des для TrEMBL'а). Далее надо создать лист-файл из адресов нужных последовательностей. Не забывайте, что при обращении к лист-файлу перед его именем надо ставить @ (например, @my.list). (Можно обойтись и без лист-файла, но тогда надо вытащить программой seqret все последовательности в файлы и положить их в отдельную директорию, а потом пользоваться "звездочкой" *). Прежде чем запускать программу emma, изучите ее Mandatory Qualifiers. Переформатирование — программой seqret.

  3. Программа tmap может предсказывать трансмембранные участки не только по отдельно взятой последовательности, но и по выравниванию. При этом качество предсказания часто повышается (почему?).

    Подайте на вход программе tmap выравнивание, полученное в предыдущем упражнении. Сравните предсказание для белка CMI_DROME с тем, что было получено без использования выравнивания. Объясните результат.

  4. Найти все открытые рамки считывания в последовательности лактозного оперона E. coli (AC J01636). Все ли аннотированные в данной записи EMBL кодирующие последовательности совпадают с найденными открытыми рамками?

    Подсказки. Используйте команду getorf пакета EMBOSS. Поскольку записи из EMBL скачиваются медленно, лучше заранее сохранить запись embl:j01636 в файл (программа entret), а потом с ней работать.

  5. Изучить параметры команды getorf (группа Nucleic gene finding). Изменением параметров getorf добиться того, чтобы аннотированные CDS'ы в лактозном опероне предсказывались этой командой как можно более "правильно" (точнее, совпадали с аннотированными границами), а "лишних" открытых рамок было как можно меньше.

    Подсказка. Обратите внимание на параметры -table  и -find

  6. Построить выравнивание одного из семейств белков (ферментов биосинтеза триптофана, триптофанил тРНК синтетазы, репрессора триптофанового оперона) или триптофановых тРНК, найденных при выполнении второго зачетного задания. Результат — файл в msf формате, имя файла должно отражать название белков или тРНК.

    Последовательности лежат в поддиректориях директории y02/Term3/Practices/Practice_7 на диске P.

    Договаривайтесь с соседями, чтобы были построены все выравнивания!

    Нужно построить "правильные" выравнивания. Если не получается, то подумайте немножко (некоторые из ферментов состоят из двух компонент; в последовательностях тРНК к коду микроорганизма приделана буква a – архея или b – бактерия — к чему бы?)