На главную страницу второго семестра.

Занятие 4.Матрицы весов аминокислотных замен.


  1. Изучение матрицы BLOSUM62.

  2. В ходе анализа матрицы были изучены две группы аминокислот (см. книгу Practice_4.xls страница blosum62):

    Получены данные о средних частотах замен между аминокислотами внутри группы и между группами (при расчетах использовалась функция Exel "Среднее Значение"). Результаты приведены в табл№1:
    Средний вес замен между:
    а.о. желтой группы0,83
    а.о. синей группы2
    а.о. желтой и синей группы-2,75

    Наблюдаемая закономерность: аминокислоты внутри одной группы имеют положительное значение замены, а замены между разными группами имеют отрицательное значение замены. Ну, это логично: аминокислоты одной группы сходны по физико-химическим свойствам, а в некоторых даже и по размерам боковых групп (как то Asn и Gln - химические гомологи, то есть отличаются друг от друга на CH2-группу,как и Asp и Glu) отчего аминокислоты одной группы могут заменять друг друга в молекулах белков без особого сбоя в функции, особенно если замена произошла на поверхности белка. К тому же Asn и Gln могут спонтанно дезаминироваться, переходя соответсвенно в Asp и Glu, отчего очевидно эти замены во многом не смертельны. А аминокислоты разных групп резко различаются как по физико-химическим свойствам, так и по структуре боковой группы, отчего средний вес таких замен заведомо отрицателен и такие мутации не закрепляются, так как во многом нарушают функцию белка. В моем случае понятно, что гидрофобные аминокислоты синей группы (Phe, Tyr, His) могут быть ядрообразующими и очевидно участвуют в гидрофобных и вандерваальсовых взаимодействиях, и при замене их на гидрофильные аминокислоты желтой группы, особенно заряженные (Glu, Asp), может привести как к неправильному фолдингу с потерей активности белка, так и просто "взрыву" глобулы, если вдруг заряженная аминокислота окажется погруженной в гидрофобное ядро. Даже внимательно присмотревшись можно заметить, что большинство аминокислот одной группы имеют общую схему анаболизма из общих предшественников: например V, I, L - две молекулы пирувата (но Ile - пируват + Thr) и общая логика синтеза; F, Y, W - все аминокислоты происходят из хоризмата, но Phe, Tur - анаболизм по ветви профената, а Trp - по ветви антранилата.

  3. Вычисление весов замен аминокислот на основе одного "блока".

  4. На сайте базы данных BLOCKS проведен поиск блоков, относящихся к ARGB_ECOLI. Поиск по Acession number никаких результатов не дал, но блоки были получены по описанию белка. Выбран был блок IPB005522D. С помощью программы pairs_count.exe получена таблица количеств различных пар аминокислот в данном блоке (сохранена в block_pairs.txt). На основе полученных количеств пар рассчитаны веса аминокислотных замен для трех пар аминокислот: E, G, K (результаты расчетов сохранены в книге Practice_4.xls страница Block). В таблице "Количество замен" выписаны результаты программы pairs_count.exe и в отдельной строке - общее количество пар (замен) аминокислот в данном блоке.
    В таблице "Частоты замен в блоке" представлены частоты данных аминокислотных замен (qxy) в этом блоке (расчет по формуле: "количество пар (замен) типа XY [Qxy]"/"общее количество пар (замен) всех типов [ΣQij]") [рассмотрен также случай X = Y].

    qxy = Qxy/ΣQij
    Если аминокислотные замены (пары аминокислот в последовательностях, стоящие в одинаковых позициях) случайные и независимые, то вероятность найти а/к X против Y есть: qxy = qx*qy (1), где qx - частота встречаемости а/к, qy - частота встречаемости а/к Y (данные о частотах встречаемости аминокислот в первом случае взяты из файла aafreq.txt, содержимое которого для удобства сохранено в книге Practice_4.xls на странице aafreq, а во втором случае - рассчитаны по данным блока - результаты и используемые формулы приведены в книге blocks.xls, а результаты использования этих частот оформлены в книге Practice_4.xls на странице Block second edition. Если встречаемость замены XY не случайно, то вероятность замены XY есть собственно величина qxy (2). Тогда отношение величины (2) на (1) и есть то, что мы называем весом а/к замены (формула представлена ниже).
    В таблице "Веса а/к замен" рассчитан вес аминокислотных замен E, G, K в данном блоке; расчет по формуле: "частота аминокислотной пары (замены) XY [qxy]"/("частота встречаемости а.о. Х [qx]"*"частота встречаемости а.о. Y [qy]").

    qxy/(qx*qy)
    В таблице "Собственно веса а/к замен." представлены результаты использования формулы: 2*log2("вес замены") и округления до целого.

    2*LOG2[qxy/(qx*qy)]
    Сравнение "Собственно веса а/к замен." с матрицей Blosum62 показывает, что по некоторым заменам аминокислот получены вполне коррелируемые результаты, например замены EE, GG, KK в Blosum62 составляют 5, 6, 5, а в таблице "Собственно веса а/к замен.": 7; 5; 7 соответственно, что хотя бы совпадает по знаку замены, в других случаях, например замены EK, KG в Blosum62 составляют 1, -2, а в таблице "Собственно веса а/к замен.": 0; 1 соответственно, что совершенно не коррелирует даже по знаку замены друг с другом. На мой взгляд, это связано с тем, что выборка белков в моем блоке мала по размерам, отчего возможно некоторое несовпадение весов замен из-за, например, попадания в эту выборку высоко родственных белков: тогда точно будет завышен вес одноименных замен (типа ХХ) особенно в области консервативных последовательностей активного центра. Но в целом, вероятно, результаты можно считать удовлетворительно коррелирующими с матрицей Blosum62. Результаты сравнения:

    Табл. 2. Данные сравнения Blosum62 и таблицы "Собственно веса а/к замен" листа Block


    Тип замены

    EE

    EK

    EG

    GG

    GK

    KK

    Blosum62

    5

    1

    -2

    6

    -2

    5

    "Собственно веса а/к замен."

    7

    0

    -4

    5

    1

    7

    Однако используя высчитанные частоты встречаемости аминокислот на основе блока и сравнивая с данными матрицы Blosum62, результаты получаются несколько иные:

    Табл. 3. Данные сравнения Blosum62 и таблицы "Собственно веса а/к замен" листа Block second edition

    .

    Тип замены

    EE

    EK

    EG

    GG

    GK

    KK

    Blosum62

    5

    1

    -2

    6

    -2

    5

    "Собственно веса а/к замен."

    4

    -3

    -6

    6

    0

    5

    Заметно, что данные таблицы 3 по EE, GG, KK позициям дали прекрасные совпадения, а вот зато по остальным - несколько хуже. Но все же эти результаты намного лучше данных таблицы 2: очевидно оттого, что частоты встречаемости аминокислот в протеоме ECOLI несколько отличны от частот, вычисленных по данным банка аминокислот из разных бактерий.

  5. Вычисление весов замен аминокислот на основе большой выборки.

  6. Результаты сохранены в книге Practice_4.xls страница Blocks_200. Использовались те же формулы, что и при выполнении задания №2. Сравнив с результатами предыдущего упражнения можно сказать, что есть существенные различия и вполне приемлимые соответствия. Между данными таблицы "Собственно веса а/к замен" и Blosum62 впринципе прекрасная корреляция: по всем заменам E, K, G; знак замены почти совпадает в обеих матрицах; практически для всех типов замен числа приблизительно одинаковы:

    Табл. 4. Данные сравнения Blosum62 и таблицы "Собственно веса а/к замен" листа Blocks_200


    Тип замены

    EE

    EK

    EG

    GG

    GK

    KK

    Blosum62

    5

    1

    -2

    6

    -2

    5

    "Собственно веса а/к замен."

    4

    1

    0

    4

    0

    3

    Корреляция очень хорошая, что является подтверждением того, что чем больше выборка белков, тем ближе результат к истине.



    ©Володя Рудько