Сигналы в нуклеотидных последовательностях

Программа МЕМЕ

В файле pur28.fasta лежат последовательности ДНК E.coli, находящейся перед генами, регулируемыми белком PurR (пуриновым репрессором). При помощи МЕМЕ необходимо найти общий мотив в этих последовательностях (предполагаемый сигнал, узнаваемый белком PurR).
Для выполнения задания зададим следующие параметры в МЕМЕ:

- строго заданная длина мотива: 16
- число различных мотивов: 1
- распределение количества встреч для каждого мотива (либо один, либо вообще нет).

Поиск по этим параметрам привел к таким результатам:



Название последовательности Цепь (+/-) Начало P-value
purM + 221 1.24e-09
codB + 218 5.41e-09
cvpA + 229 1.05e-08
purE + 214 1.29e-08
purR - 238 2.00e-08
pyrC - 232 2.93e-08
purL - 207 6.54e-08
guaB - 230 1.56e-07
purA + 179 3.46e-07
glnB - 216 4.14e-07


Матрица PSSM:

  A C G T Паттерн
1 -997 156 -24 -139 C
2 -997 -997 208 -997 G
3 60 34 -124 -40 M
4 192 -997 -997 -997 A
5 192 -997 -997 -997 A
6 119 34 -997 -139 M
7 -997 208 -997 -997 C
8 -997 -997 208 -997 G
9 19 -997 -997 141 W
10 -997 -997 -997 192 T
11 -997 -997 -997 192 T
12 -997 -997 156 19 K
13 -997 193 -124 -997 C
14 -40 76 -124 19 Y
15 -997 -997 -997 192 T
16 -997 -24 -24 119 T


Исходные последовательности (найденные мотивы подчеркнуты):
>codB
cggcactgtgtgccgatgcctgatgcgacgctgacgcgttttatcatgcctacggacctgaaccgtaggtcggataaggcgctcgcgtcgcatccgacaccatgctcagatgcctgatgcgacg
ctgacgcgtcttatcaggcctacccactgtttttacaccgataatttttcccccacctttttgcactcattcatataaaaaatatatttccccacgaaaacgattgctttttatcttcagatga
atagaatgcggcggattttttgggtttcaaacagcaaaaagggggaatttcgtgtcgcaagataacaactttagccaggggccagtcccgcagtcggcgcggaaaggggtattggcattgacgt
tcgtcatgctgggattaaccttcttttc

>purE
agtgcgatggaaaaacatcaggtgcaatggctgatccacgggcatacccatcgcccggcggtgcatgaacttatcgccaatcagcaacctgcttttcgcgtggtactgggtgcctggcatacgg
aaggttcaatggtgaaagtcacggcggatgacgttgagctgattcattttccgttttaaaaaacccgcaactttgctgatttcacagccacgcaaccgttttccttgctctctttccgtgctat
tctctgtgccctctaaagccgagagttgtgcaccacaggagttttaagacgcatgtcttcccgcaataatccggcgcgtgtcgccatcgtgatggggtccaaaagcgactgggctaccatgcag
ttcgccgccgaaatcttcgaaatcctga

>pyrC
gtacaaccggaaaaaatgcaaacggtgatgcaaacgttgcttccctatttgaaccaggcattacgcaattactttaaccagcaacctgcttacgtcctgcgcgaagatggcagccagggcgaag
caatggcgaaaaaactggcgaaaggcattgaagtgaagccaggcgaaattgtcattccatttactgattaatcacgagggcgcattcgcgccctttatttttcgtgcaaaggaaaacgtttccg
cttatcctttgtgtccggcaaaaacatcccttcagccggagcatagagattaatgactgcaccatcccaggtattaaagatccgccgcccagacgactggcaccttcacctccgcgatggcgac
atgttaaaaactgtcgtgccatatacca

>purR
tcaagttttctccttttttattaccacacaaaaagtgatattacgcatttttacacactgtgatgaaaaaatctcccgtcatttataatgataagtgtttttaccacttccccttttcgtcaag
atcggccaaaattccacgcttacactatttgcgtactggccattgaccccttcctgacgctccgtgtcgtttttccggcgtaccgcaacacttttgttgtgcgtaaggtgtgtaaaggcaaacg
tttaccttgcgattttgcaggagctgaagttagggtctggagtgaaatggaatggcaacaataaaagatgtagcgaaacgagcaaacgtttccactacaactgtgtcacacgtgatcaacaaaa
cacgtttcgtcgctgaagaaacgcgcaa

>cvpA
tctggcttaagtggcgtggtaatgggctatacgccgaattaatacggtcttgcctgatgcgacgctggcgcgtcttatcaggcctacgcaggggtagaaccgtaggtcggataaggcgtttacg
ccgcatccgacacgcattgcccgatgccgcaaaggcataaaaagtcgatggcgttgaatattttttcagcgccatttttattgatgcgcgggaaggaaatccctacgcaaacgttttctttttc
tgttagaatgcgccccgaacaggatgacagggcgtaaaatcgtgggacacatatggtctggattgattacgccataatcgcggtgattgctttttcctctctggttagcctgatccgcggcttt
gttcgtgaagcgttatcgctggtgacat

>purM
acaaaaaaaatcgacggattatacctcctttcttcaaggcggcaatattcttttcgttgactttagtcaaaatgataacggtttgagataaagttattttatattcagatggttatgaaagaag
attattccatccgaaaactaacctttaccctggcacaagtcttctttcgccgcgcgcctggggaaaagacgtgcaaaaaggttgtgtaaagcagtctcgcaaacgtttgctttccctgttagaa
ttgcgccgaattttatttttctaccgcaagtaacgcgtggggacccaagcagtgaccgataaaacctctcttagctacaaagatgccggtgttgatattgacgcgggtaatgctctggttggaa
gaatcaaaggcgtagtgaagaaaacgcg

>guaB
agtgaccggaagctggttgcgtgaaattagaaatttcgccgctgatccaaacctgtcccatctcatgctcaagcagcagacgaaccgtttgattcaggcgactaacggtaaaaattgcagggga
ttgagaaggtaacatgtgagcgagatcaaattctaaatcagcaggttattcagtcgatagtaacccgcccttcggggatagcaagcattttttgcaaaaaggggtagatgcaatcggttacgct
ctgtataatgccgcggcaatatttattaaccactctggtcgagatattgcccatgctacgtatcgctaaagaagctctgacgtttgacgacgttctcctcgttcctgctcactctaccgttctg
ccgaatactgctgacctcagcacccagc

>glnB
ctgacctcatctccggtgattagtgatgcgctggtggagcaggcgctggagggtgaaaatacggcgctgccaacctttgttgaggcacgtaatcagtttgaactcaactatttgcgtaagctgc
tgcaaatcaccaaaggcaacgtcacccacgcggcgagaatggcggggcgcaaccggacagaattttataaactgctttcccgacacgagctggatgcaaacgatttcaaggaatgaattggcgt
tatgtgttacgtttagcagatcaaaagacaggcgaccttttcaaggaatagcatgaaaaagattgatgcgattataaaacccttcaagctggacgatgtccgcgaagcactggccgaagtcggt
attaccggcatgacggtgaccgaagtga

>purL
ccagaatgccgatgaacagataattaatctttaattttttcaattagttaattctctgtgtcgtgcgcgtcccagcttgaaaaaacgtaataatagtgaaaggtttactcataaatgagcggca
ttttgcgtaaacctgcgccagatggcaacttattacagccattggcggcacgcgttgctaattcacgatggtgattttatttccacgcaaacggtttcgtcagcgcatcagattctttataatg
acgcccgtttcccccccttgggtacaccgaaagcttagaagacgagagacttatgatggaaattctgcgtggttcgcctgcactgtcggcattccgaatcaacaaactgctggcacgttttcag
gctgccaggctcccggttcacaatattt

>purA
gaattcgacaatctggctggcgcttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatatttta
cgtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaaaaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaact
ctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctga
ctgaacgggctaaatatgttgtacgcta

Сравнение полученных результатов с реальными сайтами узнавания PurR

Правильно нашлись мотивы вo всех последовательностях, кроме последней (purA), в которой мотивы вообще не совпадают:
>purA
gaattcgacaatctggctggcgcttgccctggttttggtactggaaggtttagggccgatgctttacccgaaggcatggaagaagatgatctctgcgatgaccaatttgcccgataatatttta
cgtcgttttggcggtggacttgtggttgcgggcgttgtggtctactacatgttgaggaaaacgattggctgaacaaaaaacagactgatcgaggtcatttttgagtgcaaaaagtgctgtaact
ctgaaaaagcgatggtagaatccatttttaagcaaacggtgattttgaaaaatgggtaacaacgtcgtcgtactgggcacccaatggggtgacgaaggtaaaggtaagatcgtcgatcttctga
ctgaacgggctaaatatgttgtacgcta
Красным выделен реальный сайт узнавания purR, найденный МЕМЕ мотив подчеркнут. У правильно найденных мотивов совпадение неполное, координаты отличаются на один-два нуклеотида. Рассчитаем специфичность и чувствительность для проведенного поиска:
Чувствительность (отношение числа правильных предсказаний к числу реальных сайтов) = 9/10 = 0.9,
специфичность (отношение числа правильных предсказаний к общему числу предсказаний) = 9/10 = 0.9.

Назад