Мотивы, паттерны и профили.

Задание 1. Построение паттернов выравнивания.


Выбранный для исследование участок выравнивания(тут не 20 аминокислотных остатков,а чуть больше ввиду достаточно неточного исходного выравнивания.)
Самый длинный участок выбранного фрагмента, не содержащий гэпов.

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности G-H-L-V-K-A-A-V-E-L-A-K-D-W-R-T-D-R-M-L-R-K-L-E-A-L-L-A-V-A-D-E-T-A-S-L-I-I-T-G-N-G-D-V-V-Q-P 15 Нет,найдена только исходная последовательность и схожие с ней, так дано достаточно строгое условие для поиска,а в выравнии muscle нет таких последовательностей,которые точно совпадают с исходной.
Сильный G-[HNQ]-L-X-[KR]-[AS]-[SA]-[VI]-E-L-A-[KR]-[DEH]-W-R-T-D-[KR]-[MSIV]-[IL]-[SR]-[KR]-[LI]-[EQ]-A-[LMV]-[LI]-[LAD]-V-A-[DN]-[KHE]-[ENDT]-[SATN]-[STI]-[FYL]-[VI]-[VI]-[ST]-G-N-G-[ED]-V-[VIL]-[EQR]-P 44 Найдено 6 последовательностей из 7,последовательность Q74IU3 вероятно не найдена потому,что это последовательность наименее похожая на остальные(при построении этого паттерна я не учитывала практически эту последовательность.
Слабый L-X-[KRD]-[ASV]-[SAY]-[VIG]-[AE]-[QL]-[WA]-[KR]-[EHD]-W-X(0,1)-X(0,1)-R-[TE]-[GD]-[RKG]-X-[LI]-[SDR]-[QKR]-[LI]-[EQ]-[NA]-[LMV]-[LI]-[LAD]-[VQ]-[IA]-[DNK]-[HEK] 55 Все последовательности.

Примечание:
Ввиду того,что первая последовательность в выравнивании меньше всего схожа со всеми остальными и исходной(РОА7В8),то в построении сильного паттерна ее аминокислотные остатки я практически не учитывала.
При построении слабого паттерна: во-первых, я сократила последовательность(на 2 аминокислоты слева и на 15 справа для уменьшения количества консервативных участков и для уменьшения участков,содержащих гепы.), во-вторых,добавила в паттерн остатки самой непохожей аминокислоты Q74IU3 Vя увеличения вероятности находки не слишком похожих на исходный белок POA7B8 других белков.
Таким образом,самым "действенным" паттерном оказался самый слабый, который нашел все исходные последовательности,так ка в нем учитываются все позиции самой непохожей аминокислоты TYSY_LACJO.

Задание 2.Все описанные в PROSITE мотивы в заданном белке HSLV_ECOLI. PROSITE)

Идентификатор документа PROSITE (AC) Название мотива Краткое описание мотива Тип подписи (паттерн, профиль) Паттерн (регулярное выражение) Специфична ли подпись? Сколько мотивов нашлось в белке?
PS00005 PKC_PHOSPHO_SITE Protein kinase C phosphorylation site (Сайт фосфорелирования протеин киназой С) паттерн [ST] - x - [RK] неспецифична 4
PS00008 MYRISTYL N-myristoylation site (сайт N-миристоилирования ) паттерн G - {EDRKHPFYW} - x(2) - [STAGCN] - {P} [G is the N - myristoylation site] неспецифична 2
PS00006 CK2_PHOSPHO_SITE Casein kinase II phosphorylation site (Сайт фосфорелирования казеин киназой II) паттерн [ST] - x(2) - [DE] [S or T is the phosphorylation site] неспецифична 3

Задание 3. Построение позиционно-специфичной матрицы частот аминокислотных остатков (PSSM), вес последовательности по этой матрице.


Фрагмент выравнивания
Выходной файл программы prophecy.
Выходной файл программы profit.

Комментарии:


Построение матрицы PSSM: программа prophecy предназначена для построения самой матрицы PSSM.
Для этого на вход подается исходное множественное выравнивание (part2.txt), затем выбирается режим работы программы (F(frequency), G(Gribskov), H-(Henikoff)) и threshold reporting percentage(задает процентное значение,которое может быть получено от максимального результата),затем выбирается выходной файл(part2.prophecy).
Программа profit определяет вес последовательности на основе матрицы PSSM, построенной программой prophecy, при этом программа profit строит вес выравнивания на основе программы prophecy для каждой последовательности из списка и сопоставляет это значение с пороговым,которое задавалось командой threshold reporting percentage, и сообщает о значении выше порогового.

Главная страница

Первый семестр.

Второй семестр.


©Александра Литвинчук,2008