Второй семестр

Глобальное и локальное выравнивание аминокислотных последовательностей

Матрицы переходов

I Глобальное выравнивание

Последовательности:
  1. MFGK (первые 4 аминокислотных остатка белка CYOB_ECOLI)
  2. LFGST (первая последовательность с 2 заменами и 1 вставкой)
При построении матрицы переходов использованы параметры: вес совпадения = 2, вес замены = -1, штраф за делецию = -2.


Оптимальному пути (выделен желтым цветом) соответствует выравнивание:
M F G K -
L F G S T
Вес выравнивания равен нулю (2*2+2*(-1)+(-2)=0).

II Локальное выравнивание

Последовательности:
  1. MFGKLSLDA (первые 9 аминокислотных остатка белка CYOB_ECOLI)
  2. FGLDA (аминокислоты 2, 3, 7, 8, 9 белка CYOB_ECOLI)
При построении матрицы переходов использованы параметры: вес совпадения = 2, вес замены = -1, штраф за делецию = -2.


Оптимальное локальное выравнивание (вес 6):
L D A
L D A

Субоптимальное локальное выравнивание (вес 4):
F G K L
F G - L

Влияние параметров на глобальное выравнивание


Матрица: EBLOSUM62
Штраф за открытие делеции: 1.0
Штраф за продолжение делеции: 1.0

Длина выравнивания: 666
Идентичность: 18/666 ( 2.7%)
Сходство: 19/666 ( 2.9%)
Делеции: 645/666 (96.8%)
Вес выравнивания: 84.0

CYOB_ECOLI         1 MFGKLSLDAVPFHEPIVMVTIAGIILGGLALVGLITYFGKWTYLWKEWLT     50
                                                                       
seq                1                                                         0

CYOB_ECOLI        51 SVDHKRLGIMYIIVAIVMLLRGFADAIMMRSQQALASAGEAGFLPPHHYD    100
                                                                       
seq                1                                                         0

CYOB_ECOLI       101 QIFTAHGVIMIFFVAMPFVIGLMNLVVPLQIGARDVAFPFLNNLSFWFTV    150
                                                                       
seq                1                                                         0

CYOB_ECOLI       151 VGVILVNVSLGVGEFAQTGWLAYPPLSGIEYSPGVGVDYWIWSLQLSGIG    200
                                                               .|.|  :|
seq                1                                           GLAL--VG      6

CYOB_ECOLI       201 TTL-T--GINFFVTILKMRAPGMTMFKMPVFTWASLCANVLIIASFPILT    247
                       | |  | ||||||||||||                             
seq                7 --LITYFG-NFFVTILKMRAP                                  24

CYOB_ECOLI       248 VTVALLTLDRYLGTHFFTNDMGGNMMMYINLIWAWGHPEVYILILPVFGV    297
                                                                       
seq               25                                                        24

CYOB_ECOLI       298 FSEIAATFSRKRLFGYTSLVWATVCITVLSFIVWLHHFFTMGAGANVNAF    347
                                                                       
seq               25                                                        24

CYOB_ECOLI       348 FGITTMIIAIPTGVKIFNWLFTMYQGRIVFHSAMLWTIGFIVTFSVGGMT    397
                                                                       
seq               25                                                        24

CYOB_ECOLI       398 GVLLAVPGADFVLHNSLFLIAHFHNVIIGGVVFGCFAGMTYWWPKAFGFK    447
                                                                       
seq               25                                                        24

CYOB_ECOLI       448 LNETWGKRAFWFWIIGFFVAFMPLYALGFMGMTRRLSQQIDPQFHTMLMI    497
                                                                       
seq               25                                                        24

CYOB_ECOLI       498 AASGAVLIALGILCLVIQMYVSIRDRDQNRDLTGDPWGGRTLEWATSSPP    547
                                                                       
seq               25                                                        24

CYOB_ECOLI       548 PFYNFAVVPHVHERDAFWEMKEKGEAYKKPDHYEEIHMPKNSGAGIVIAA    597
                                                                       
seq               25                                                        24

CYOB_ECOLI       598 FSTIFGFAMIWHIWWLAIVGFAGMIITWIVKSFDEDVDYYVPVAEIEKLE    647
                                                                       
seq               25                                                        24

CYOB_ECOLI       648 NQHFDEITKAGLKNGN    663
                                     
seq               25                      24

Матрица: EBLOSUM62
Штраф за открытие делеции: 10.0
Штраф за продолжение делеции: 1.0

Длина выравнивания: 668
Идентичность: 15/668 ( 2.2%)
Сходство: 16/668 ( 2.4%)
Делеции: 649/668 (97.2%)
Вес выравнивания: 64.0

CYOB_ECOLI         1 MFGKLSLDAVPFHEPIVMVTIAGIILGGLALVGLITYFGKWTYLWKEWLT     50
                                                                       
seq                1                                                         0

CYOB_ECOLI        51 SVDHKRLGIMYIIVAIVMLLRGFADAIMMRSQQALASAGEAGFLPPHHYD    100
                                                                       
seq                1                                                         0

CYOB_ECOLI       101 QIFTAHGVIMIFFVAMPFVIGLMNLVVPLQIGARDVAFPFLNNLSFWFTV    150
                                                                       
seq                1                                                         0

CYOB_ECOLI       151 VGVILVNVSLGVGEFAQTGWLAYPPLSGIEYSPGVGVDYWIWSLQLSGIG    200
                                                                      |
seq                1                                                  G      1

CYOB_ECOLI       201 TTLTGI-----NFFVTILKMRAPGMTMFKMPVFTWASLCANVLIIASFPI    245
                     ..|.|:     ||||||||||||                           
seq                2 LALVGLITYFGNFFVTILKMRAP                                24

CYOB_ECOLI       246 LTVTVALLTLDRYLGTHFFTNDMGGNMMMYINLIWAWGHPEVYILILPVF    295
                                                                       
seq               25                                                        24

CYOB_ECOLI       296 GVFSEIAATFSRKRLFGYTSLVWATVCITVLSFIVWLHHFFTMGAGANVN    345
                                                                       
seq               25                                                        24

CYOB_ECOLI       346 AFFGITTMIIAIPTGVKIFNWLFTMYQGRIVFHSAMLWTIGFIVTFSVGG    395
                                                                       
seq               25                                                        24

CYOB_ECOLI       396 MTGVLLAVPGADFVLHNSLFLIAHFHNVIIGGVVFGCFAGMTYWWPKAFG    445
                                                                       
seq               25                                                        24

CYOB_ECOLI       446 FKLNETWGKRAFWFWIIGFFVAFMPLYALGFMGMTRRLSQQIDPQFHTML    495
                                                                       
seq               25                                                        24

CYOB_ECOLI       496 MIAASGAVLIALGILCLVIQMYVSIRDRDQNRDLTGDPWGGRTLEWATSS    545
                                                                       
seq               25                                                        24

CYOB_ECOLI       546 PPPFYNFAVVPHVHERDAFWEMKEKGEAYKKPDHYEEIHMPKNSGAGIVI    595
                                                                       
seq               25                                                        24

CYOB_ECOLI       596 AAFSTIFGFAMIWHIWWLAIVGFAGMIITWIVKSFDEDVDYYVPVAEIEK    645
                                                                       
seq               25                                                        24

CYOB_ECOLI       646 LENQHFDEITKAGLKNGN    663
                                       
seq               25                        24



Теорема 1. Даны две последовательности. Применим к данным последовательностям оператор needle. Тогда при увеличении штрафа за открытие делеции, уменьшается вес выравнивания.
Доказательство:
Рассмотрим случай, когда штраф за открытие делеции равен десяти. Тогда needle предпочитает длинные и непрерывные последовательности из делеций, а не множество коротких длиной несколько символов. При этом уменьшается процент идентичности и сходства, что приводит к уменьшению веса выравнивания. Расмотрим случай, когда штраф за открытие делеции равен одному. Тогда при штрафе за продолжение делеции равном единице, штраф за отрытие делеции теряет смысл. В моем случае штраф за отрытие делеции равен десяти и needle разбивает последовательность делецией длиной пять. По формуле (афинная система штрафов) штраф за делецию равен 10+4*1=14. При штрафе за открытие делеции равеном одному суммарный штраф за делецию равен 1+1*1+ 1+1+1*1+1+1*1+1=8.

Теорема 2. Наиболее биологически осмысленным является выравнивание с большим (в разумных количествах) значением штрафа за отрытие делеции при постоянном малом штрафе за продолжение делеции.
Доказательство:
Вероятность появления длинной и непрерывной последовательности из делеций (вставки, смотри теорему 1) значительно больше, чем вероятность множества коротких замен. Далее обоснование смотри в основной теореме биологии, где более вероятным считается результат с меньшим количеством эволюционных событий.

Второй семестр


© Снегирёв Александр, 2005