Гибкое выравнивание.


  1.  Построение выравнивания последовательностей пары 1opk и 1k9a протеинкиназ с разметкой кластеров плюс-блоков - блоков, в которых выравнивание подтверждено структурными данными.

    При помощи прогрмаммы FATCAT было построено парное гибкое выравнивание цепи A (длина - 449 а.о.) из записи 1opk и цепи A (длина - 439 а.о.) из записи 1k9a.
    1OPK - прото-онкоген тирозин-киназа ABL1 (Proto-oncogene tyrosine-protein kinase ABL1), 1K9A - карбоксил-терминальная киназа Src (Carboxyl-terminal Src kinase).

    Страничка с результатами.

    Выравнивание:
    Align 1opk*a.pdb 449 with 1k9a*a.pdb 439
    Twists 2 ini-len 376 ini-rmsd 1.48 opt-equ 417 opt-rmsd 2.01 chain-rmsd 23.00 Score 993.88 align-len 448 gaps 31 (6.92%)
    P-value 0.00e+00 Afp-num 59010 Identity 37.50% Similarity 54.91%
    Block  0 afp  7 score 159.26 rmsd  1.38 gap 1 (0.02%)
    Block  1 afp 12 score 254.39 rmsd  1.89 gap 2 (0.02%)
    Block  2 afp 28 score 639.72 rmsd  1.30 gap 40 (0.15%)
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:   83 NLFVALYDFVASGDNTLSITKGEKLRVLGYNHNGEWCEAQTKN-GQGWVPSNYITPVNS------LEKHS
                  1111111111111111111111111111111111111111111 111111111111111      22222
    Chain 2:   12 TECIAKYNFHGTAEQDLPFCKGDVLTIVAVTKDPNWYKAKNKVGREGIIPANYVQKREGVKAGTKLSLMP
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:  146 WYHGPVSRNAAEYLLSSGINGSFLVRESESSPGQRSISLRYEGRVYHYRINTASDGKLYVSSESRFNTLA
                  22222222222222222222222222222222222222222222222222222 2222222222222222
    Chain 2:   82 WFHGKITREQAERLLYPPETGLFLVRESTNYPGDYTLCVSCEGKVEHYRIMYH-ASKLSIDEEVYFENLM
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:  216 ELVHHHSTVADGLITTLHYPAPKRNKPTIYGVSPNYDKWEMERTDITMKHKLGGGQYGEVYEGVWKKYSL
                  22222222222222222222222222         3333333333333333333333333333333  33
    Chain 2:  151 QLVEHYTTDADGLCTRLIKPKVMEGTVAAQDEFY-RSGWALNMKELKLLQTIGKGEFGDVMLGDYR--GN
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:  286 TVAVKTLKEDTMEVEEFLKEAAVMKEIKHPNLVQLLGVCTRE-PPFYIITEFMTYGNLLDYLRECNRQEV
                  33333333 333333333333333333333333333333333 333333333333333333333333333
    Chain 2:  218 KVAVKCIK-NDATAQAFLAEASVMTQLRHSNLVQLLGVIVEEKGGLYIVTEYMAKGSLVDYLRSRGRSVL
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:  355 SAVVLLYMATQISSAMEYLEKKNFIHRNLAARNCLVGENHLVKVADFGLSRLMTGDTYTAHAGAKFPIKW
                  33333333333333333333333333333333333333333333333333333    3      333333
    Chain 2:  287 GGDCLLKFSLDVCEAMEYLEGNNFVHRDLAARNVLVSEDNVAKVSDFGLTKEA----S------KLPVKW
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:  425 TAPESLAYNKFSIKSDVWAFGVLLWEIATYGMSPYPGIDLSQVYELLEKDYRMERPEGCPEKVYELMRAC
                  3333333333333333333333333333333333333333333333333333333333333333333333
    Chain 2:  353 TAPEALREKKFSTKSDVWSFGILLWEIYSFGRVPYPRIPLKDVVPRVEKGYKMDAPDGCPPAVYDVMKNC
    
                      .    :    .    :    .
    Chain 1:  495 WQWNPSDRPSFAEIHQAFETMFQESSIS
                  3333333333333333333333333333
    Chain 2:  423 WHLDAATRPTFLQLREQLEHIRTHELHL
    
    Note: positions are from PDB; the numbers between alignments are block index
    


    На данном графике можно увидеть плюс-блоки (их 3), они выделены урасным, малиновым и желтым цветами.

    Теперь импортируем выравнивание в GeneDoc:



    Итак, суммарная длина обоснованного выравниваня: 417 а.о. - 94.9% от длины наименьшей последовательности в выравнивании.

    Теперь рассмотрим каждый кластер в отдельности.

    Первый:
    1. идентификатор кластера: 1 (0)

    2. положение в выравнивании: 1-43, 45-59

    3. число плюс-блоков в кластере: 2

    4. суммарное число позиций обоснованного выравнивания в кластере: 58

    5. суммарное число совпадающих букв в кластере - 14,
      процент от числа позиций обоснованного выравнивания - 24.14%;
      суммарное число совпадающих букв в кластере - 23,
      процент от числа позиций обоснованного выравнивания - 39.7%;

    6. RMSD = 1.38



    Второй:
    1. идентификатор кластера: 2 (1)

    2. положение в выравнивании: 66-123, 125-166

    3. число плюс-блоков в кластере: 2

    4. суммарное число позиций обоснованного выравнивания в кластере: 100

    5. суммарное число совпадающих букв в кластере - 41,
      процент от числа позиций обоснованного выравнивания - 41%;
      суммарное число совпадающих букв в кластере - 51,
      процент от числа позиций обоснованного выравнивания - 51%;

    6. RMSD = 1.89



    Третий:
    1. идентификатор кластера: 3 (2)

    2. положение в выравнивании: 176-206, 209-218, 220-252, 254-333, 345-448, 338 - отдельная позиция

    3. число плюс-блоков в кластере: 5 блоков и одна отдельная позиция

    4. суммарное число позиций обоснованного выравнивания в кластере: 259

    5. суммарное число совпадающих букв в кластере - 103,
      процент от числа позиций обоснованного выравнивания - 39,77%;
      суммарное число совпадающих букв в кластере - 142,
      процент от числа позиций обоснованного выравнивания - 54,83% ;

    6. RMSD = 1.30



    Выравнивание получилось довольно хорошее: RMSD < 2 для каждого кластера.

    Совместим структуры:



    Синим цветом выделен первый кластер (83-140 - цепь А 1opk, 12-70 - цепь В 1k9a),
    желтым - второй (141-241 - цепь А 1opk, 77-176 - цепь В 1k9a),
    красным - третий (251-522 - цепь А 1opk, 185-450 - цепь В 1k9a).

    Видно, что FATCAT выдал вполне достоверный вариант.
    Вывод: никаких подозрений на ошибку программы при анализе выравнивания и совмещения не появилось.


    Проверим доменную организацию структур, сравним с ней организацию плюс блоков.



    Раскраска по доменам структуры 1opk согласно данным SCOP:



    Желтым цветом выделен первый домен - 44-100;
    Зеленым - второй - 101-201;
    Красным - третий - 202-492.

    Раскраска по доменам структуры 1k9a согласно данным SCOP:



    Красным цветом выделен первый домен - 6-76
    Желтым - второй - 77-177
    Фиолетовым - третий - 178-450.

    Итак, видно, что для структуры 1k9a координаты кластеров, определённых FATCAT, и доменов по SCOP, почти одинаковы.

    Сомнения вызывает структура 1opk и её доменная организация.
    Возможно, всему виной конформационная изменчивость вследствие взаимодействия белков в пределах соседних ассиметрических ячеек.



    Видно, что взаимодействие нельзя исключать.

    2. Для пары структур 1k9a и 1opk построим гибкое выравнивание с помощью сервиса RAPIDO.

    Страничка с результатами выравнивания.



    Выравнивание:






    Условные обозначения:

    '=' - бета-тяж
    '@' - альфа-спираль
    '^' - поворот
    '-' - гэп
    '*' - пропущенный остаток
    1 кластер - голубой цвет
    2 кластер - зеленый цвет
    3 кластер - синий цвет
    Красным цветом выделены гибкие участки.

    Вывод: выравнивания, полученные с помощью FATCAT и RAPIDO весьма похожи: выделены три кластера обеими программами, причем их координаты приблизительно одинаковы а обоих случаях. Возьмем, например, 1 кластер: кластер FATCAT отличается от соответствующего кластера RAPIDO всего на один аминокислотный остаток в конце.

    3. Сравним пару структур 2cn4 и 1dk0 гемофора HasA из бактерии S. marcescens с помощью гибкого выравнивания.

    Воспользуемся программой FATCAT.

    Гибкое выравнивание было построено для цепей А обеих структур. Длина цепей одинаковая - 173.
    Align 2cn4*a.pdb 173 with 1dk0*a.pdb 173
    Twists 1 ini-len 168 ini-rmsd 2.33 opt-equ 172 opt-rmsd 0.47 chain-rmsd 23.01 Score 460.80 align-len 173 gaps 1 (0.58%)
    P-value 0.00e+00 Afp-num 8328 Identity 100.00% Similarity 100.00%
    Block  0 afp  6 score 126.72 rmsd  0.93 gap 0 (0.00%)
    Block  1 afp 15 score 359.07 rmsd  0.42 gap 0 (0.00%)
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:    2 AFSVNYDSSFGGYSIHDYLGQWASTFGDVNHTNGNVTDANSGGFYGGSLSGSQYAISSTANQVTAFVAGG
                  11111111111111111111111111111111111111111111111 2222222222222222222222
    Chain 2:    2 AFSVNYDSSFGGYSIHDYLGQWASTFGDVNHTNGNVTDANSGGFYGGSLSGSQYAISSTANQVTAFVAGG
    
                      .    :    .    :    .    :    .    :    .    :    .    :    .    :
    Chain 1:   72 NLTYTLFNEPAHTLYGQLDSLSFGDGLSGGDTSPYSIQVPDVSFGGLNLSSLQAQGHDGVVHQVVYGLMS
                  2222222222222222222222222222222222222222222222222222222222222222222222
    Chain 2:   72 NLTYTLFNEPAHTLYGQLDSLSFGDGLSGGDTSPYSIQVPDVSFGGLNLSSLQAQGHDGVVHQVVYGLMS
    
                      .    :    .    :    .    :
    Chain 1:  142 GDTGALETALNGILDDYGLSVNSTFDQVAAATA
                  222222222222222222222222222222222
    Chain 2:  142 GDTGALETALNGILDDYGLSVNSTFDQVAAATA
    
    Note: positions are from PDB; the numbers between alignments are block index
    
    Получилось замечательное выравнивание с довольно низким RMSD: <1 для кластеров ~2 для выравнивания вцелом.
    FATCAT выделил 2 кластера: Первый: 2-48, второй: 50-174.



    Совмещенные структуры:



    Теперь взглянем на кластеры, совмещенные жестки образом при помощи команды align:



    Красным окрашен первый кластер, синим - второй.
    Помимо кластеров виден участок разрыва.

    Попробуем выяснить, в чём притчина разницы конформаций.

    Согласно статье "The Crystal Structure of the Secreted Dimeric Form of the Hemophore HasA Reveals a Domain Swapping with an Exchanged Heme Ligand" (Mirjam Czjzek, 2007) существуют как мономерная форма гемофора, так и димерная. Поэтому скорее всего, в данном случае мы имеем дело с конформационной подвижностью.

    Структура 1dk0:



    Структура 2cn4:



    И правда, в 1DK0 одна цепь взаимодействует только с одним гемом, а в 2CN4 с двумя.