Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Практикум 6

1. PSI-BLAST

Для данной последовательности белка составьте семейство гомологов, пользуясь PSI-BLAST

В отчёте приведите: выбранное AC, что это за белок (организм, функция), таблицу итераций, комментарии (сошлось/не сошлось, если нет, то почему, если да, то хорошее ли семейство и т.п.)

(**) Разберитесь, как запускать PSI-BLAST из командной строки

Читайте psiblast -help. Если удастся разобраться и провести содержательный поиск, опишите свой опыт.

2. Prosite

Цель задания: уточнить паттерн одного из семейств белков так, чтобы он описывал не все белки данного семейства, а только белки протеобактерий.

Входные данные: выравнивание белков протеобактерий из практикума 2 и паттерн из банка Prosite, описывающий данное семейство.

Этапы работы:

  1. Найдите в банке Prosite (https://prosite.expasy.org/ ) паттерн или паттерны, описывающие выбранное вами семейство белков. Для этого нужно просканировать одну из последовательностей семейства (например, из E.coli). См. подсказки. В отчёте приведите название семейства в Prosite и сам паттерн. Если паттернов несколько, приведите все, а для дальнейшей работы выберите один. Если паттернов нет, то придётся либо: а) взять другое семейство; б) создать паттерн самостоятельно.

  2. Откройте выравнивание белков в Jalview. Годится то выравнивание из 7–8 белков, по которому вы строили дерево.

Можно выровнять белки из всех 18 бактерий, упомянутых в задании 1. Тогда: а) составлять паттерн будет труднее; б) результат будет лучше; в) мы дадим за это дополнительный балл.
Найдите, какому месту на выравнивании соответствует паттерн из Prosite.

  1. Сделайте паттерн более строгим:
    • Если в паттерне стоит, например, [AGST], а во всех ваших белках в этой позиции стоят только S или T, замените в паттерне эту позицию на [ST]
    • Если в паттерне стоит x, а в выравнивании эта позиция содержит одну букву или две-три близкородственные (например, I, V и L), замените позицию на букву или соответствующий набор (например [ILV]
    • Если рядом с паттерном в выравнивании есть консервативная колонка, добавьте позицию к паттерну
  2. Найдите все соответствия паттерну в банке Swiss-Prot:
    • Со страницы https://prosite.expasy.org/ пройдите по гиперссылке ScanProsite (вверху).

    • Выберите Option 2
    • Внесите паттерн в окошко. Внизу страницы (где "STEP 3") выберите Output format: Matchlist (просто список находок). Область поиска ("STEP2") не меняйте, это должен быть Swiss-Prot. Запустите поиск и дождитесь результата. Сохраните список находок в файл.
  3. Теперь нужно сравнить список находок с "правильным" списком, то есть со списком всех представителей данного семейства белков из Proteobacteria, имеющихся в Swiss-Prot. Чтобы получить "правильный" список, зайдите на сайт Uniprot, там в "Advanced" и задайте поиск по Entry Name [ID] на начальные буквы — мнемонику семейства, включая подчёркивание (например, для семейства Пептидил-тРНК гидролаз внесите в окошко PTH_*), и по Taxonomy [OC] на таксон Proteobacteria. На странице с результатом скачайте список находок (Download → List).

  4. Средствами Python или Excel сравните два списка: белков, найденных вашим паттерном, и белков протеобактерий из семейства. Приведите три числа: число истинных находок (True positives, TP), то есть размер пересечения списков, число ложных находок (False positives, FP), то есть число тех белков, которые нашлись паттерном, но не входят в правильный список, и число ненайденных (False negatives, FN).
  5. (*) Усилия по улучшению паттерна (увеличению TP и уменьшению FP и FN) приветствуются. Чтобы понять, какие изменения в паттерне способны уменьшить FP, полезно подравнять к белкам протеобактерий белки того же семейства из каких-нибудь других бактерий и поискать позиции паттерна, по которым можно отличить именно протеобактерии. Чтобы увеличить TP за счёт FN, подравняйте к своему выравниванию какие-нибудь ненайденные белки из "правильного" списка и посмотрите, почему они не нашлись. Разумеется, все стадии должны быть задокументированы (например, можно привести таблицу из четырёх столбцов: паттерн, TP, FP, FN).