Матрицы замен

Изучение матрицы BLOSUM62

Матрица blosum_62 была получена в виде текстового файла, который был импортирован в MS Excel. После чего в матрице выделил 6 групп, располагая строки и столбцы матрицы соответствующим образом. Группы, очевидно, составлены таким образом, что внутри каждой оказались аминокислотные остатки с похожими физико-кимическими свойствами и с относительно похожим строением.

Далее, внутри групп NDEQ и MILV между разными аминокислотами, а также между этими группами посчитал средний вес замен. Результаты рассчета в таблице ниже, а исходные рассчеты можно посмотреть в файле blosum62.xls.

Средный вес замен внутри группы NDEQ	0,83
Средный вес замен внутри группы MILV	1,67
Средный вес замен между NDEQ и MILV	-2,56

Положительный средный вес замен внутри группы свидетельствует о том, что внутри группы аминокислоты сходны. Средний вес замен внутри MILV больше чем внутри NDEQ, возможно, потому что сходство в химическом строение внутри MILV больше. А также аминокислоты MILV очень близки по физико-химическим свойствам (гидрофобные, неполярные, незаряженные, алифатические). Внутри NDEQ тоже есть некоторое сходство (гифрофильные, полярные, заряженные, но заряд разный N и Q - положительный, а D и E - отрицательный).

Отрицательный средний вес между группами объясняется тем, что очень маленькое сходство в строении и физико-химических свойствах у аминокислот входящих в разные группы.

Вычисление весов замен на основе блока IPB010722C

В базе данных BLOCKS (http://blocks.fhcrc.org/) искал блоки, относящиеся к моему белку. Поиск проводил по SwissProt AC моего белка (P12996). В итоге было найдено 2 блока, из которых я выбрал более широкий, а именно IPB010722C (139 последовательностей, шириной 46 аминокислотных остатков). Этот блок, я сохранил в файле block.dat.
Далее, с помощью программы pairs_count.exe получил таблицу количеств различных пар аминокислот в найденном блоке. Таблица была передана и сохранена в файле block_pairs.txt. Этот текстовый файл был импортирован в MS Excel, где и были произведены дальнейшие рассчеты, на основании которых была построена матрица аминокислотных замен.

Краткое описание методики построения матрицы аминокислотных замен (работа с электронными таблицами MS Excel)¹ :

а) Подсчитал частоту встречаемости IJ-пары аминокислот в блоке по формуле:

q_i,j = Q_i,j / T,
где q_i,j - частота IJ-пары в блоке, Q_i,j - число пар IJ в блоке, T - (Total count) всего пар в блоке.

б) Подсчитал собственную частоту встречаемости I-ого остатка по формуле:

p_i = q_i,i + Σ_{i ≠ j} q_i,j / 2,
где p_i - частота I-ого аминокислотного остатка.
Вычислил следующее отношение:

q_i,j / (p_i * p_j) (при i = j), q_i,j / (2 * p_i * p_j) (при i ≠ j),
где q_i,j - частота IJ-пары в блоке, p_i (p_j) - собственная частота аминокислотного остатка.
Теперь есть все данные для построения матрицы аминокислотных замен. Прологарифмируем полученное в пункте 2 отношение. Основание логарифма выберал таким, чтобы число, полученное в результате логарифмирования отношения для пары AA, было наиболее близко по значению к соответствующему из матрицы Blosum_62. Это основание использую при логарифмировании отношения для остальных пар. Полученные после логарифмирования значения округлил до целых.

Все вычисления, проведенные по вышеуказанной методике, и их результаты можно посмотреть в файле matrix.xls

(*) Вычисление весов замен аминокислот на основе большой выборки (200 блоков из файла blocks_200.dat)

Для получения матрицы весов аминокислотных замен пользовался методикой, описанной выше. За исключением поиска собственный частот аминокислотных остатков, которые были взяты из файла AAfreq.txt

Теперь проанализируем полученные данные. Для этого выберем три пары аминокислот NN, NA, ND и сравним значения полученные для них.

Пара аминокислот	Веса замен
Пара аминокислот	blosom_62	блок IPB010722C	большая выборка blocks_200
N - N	6	5	3
N - A	-2	-1	0
N - D	1	0	2

Как видно из таблицы, веса замен, полученных мной, отличаются от соответствующих весов из матрицы blosum_62. Тем не менее, в абсолютном большенстве случаев знак сохраняется. Различные значения можно объяснить несколькими причинами. В случае, когда я считал матрицу для своего блока (IPB010722C), очевидно, что выборка очень мала (всего порядка 6000 аминокислотных остатков). А также эта выборка составлена для белков со специфицеской функцией (Biotin and thiamin synthesis associated), то есть мы ограничиваем общность. Некоторых пар в этом блоке вообще не оказалось, этот факт подтверждает выводы сделаные выше.
Более неожиданным кажется то, что матрица, полученная на основе довольно большой выборки аминокислот, также отличается от blosum_62. Но и этому можно найти довольно разумные объяснения. Например, у создателей blosum_62 была гораздо более обширная и общая выборка. (Более 2000 блоков выравненных участков последовательностей, характеризующие более чем 500 различных групп белков¹). Другая причина - несовершенство рассчетного аппарата. Возможно выбор другого основания логарифма, дал бы более приемлемые результаты. Хотя следует заметить, что выбор основания логарифма решающей роли не играет, так как при изменение основания все значения умножаются на какую-то константу, а отношение между различными весами остается неизменным. Также, в отличии от создателей blosum_62 перед логарифмированием мы не возводили матрицу в степень.
И наконец, тайной покрытой мраком, для меня остался алгоритм и принцип работы программы pairs_count.exe. Поэтому невозможно сказать, не произошла ли ошибка, на этапе работы этой программы. Все выше указанное привело к такому несоответствию моих результатов и матрицы blosum_62.

Примечание: все расчеты по 2-ому и 3-ему заданиям в файле matrix.xls

¹ Steven Henikoff and Jorja G. Henikoff. Amino acid substitution matrices from protein blocks. Biochemistry 1992; Vol. 89; 10915-10919. Методика построения матрицы весов аминокислотных замен описана в этой же статье.