На страницу II-ого семестра
Матрица blosum_62 была получена в виде текстового файла, который был импортирован в MS Excel. После чего в матрице выделил 6 групп, располагая строки и столбцы матрицы соответствующим образом. Группы, очевидно, составлены таким образом, что внутри каждой оказались аминокислотные остатки с похожими физико-кимическими свойствами и с относительно похожим строением.
Далее, внутри групп NDEQ и MILV между разными аминокислотами, а также между этими группами посчитал средний вес замен. Результаты рассчета в таблице ниже, а исходные рассчеты можно посмотреть в файле blosum62.xls.
Средный вес замен внутри группы NDEQ | 0,83 |
Средный вес замен внутри группы MILV | 1,67 |
Средный вес замен между NDEQ и MILV | -2,56 |
Положительный средный вес замен внутри группы свидетельствует о том, что внутри группы аминокислоты сходны. Средний вес замен внутри MILV больше чем внутри NDEQ, возможно, потому что сходство в химическом строение внутри MILV больше. А также аминокислоты MILV очень близки по физико-химическим свойствам (гидрофобные, неполярные, незаряженные, алифатические). Внутри NDEQ тоже есть некоторое сходство (гифрофильные, полярные, заряженные, но заряд разный N и Q - положительный, а D и E - отрицательный).
Отрицательный средний вес между группами объясняется тем, что очень маленькое сходство в строении и физико-химических свойствах у аминокислот входящих в разные группы.
В базе данных BLOCKS (http://blocks.fhcrc.org/) искал блоки,
относящиеся к моему белку. Поиск проводил по SwissProt AC моего
белка (P12996). В итоге было найдено 2 блока, из которых я выбрал
более широкий, а именно
IPB010722C (139 последовательностей, шириной
46 аминокислотных остатков). Этот блок, я сохранил в файле
block.dat.
Далее, с помощью программы pairs_count.exe получил таблицу количеств
различных пар аминокислот в найденном блоке. Таблица была передана и
сохранена в файле block_pairs.txt. Этот текстовый файл был импортирован
в MS Excel, где и были произведены дальнейшие рассчеты, на основании
которых была построена матрица аминокислотных замен.
Краткое описание методики построения матрицы аминокислотных замен (работа с электронными таблицами MS Excel)1 :
qi,j = Qi,j / T,где qi,j - частота IJ-пары в блоке, Qi,j - число пар IJ в блоке, T - (Total count) всего пар в блоке.
pi = qi,i + Σi ≠ j qi,j / 2,где pi - частота I-ого аминокислотного остатка.
qi,j / (pi * pj) (при i = j), qi,j / (2 * pi * pj) (при i ≠ j),где qi,j - частота IJ-пары в блоке, pi (pj) - собственная частота аминокислотного остатка.
Все вычисления, проведенные по вышеуказанной методике, и их результаты можно посмотреть в файле matrix.xls
Для получения матрицы весов аминокислотных замен пользовался методикой, описанной выше. За исключением поиска собственный частот аминокислотных остатков, которые были взяты из файла AAfreq.txt
Теперь проанализируем полученные данные. Для этого выберем три пары аминокислот NN, NA, ND и сравним значения полученные для них.
Пара аминокислот | Веса замен | ||
---|---|---|---|
blosom_62 | блок IPB010722C | большая выборка blocks_200 | |
N - N | 6 | 5 | 3 |
N - A | -2 | -1 | 0 |
N - D | 1 | 0 | 2 |
Как видно из таблицы, веса замен, полученных мной, отличаются от
соответствующих весов из матрицы blosum_62. Тем не менее, в абсолютном большенстве
случаев знак сохраняется. Различные значения можно объяснить несколькими причинами. В случае, когда я
считал матрицу для своего блока (IPB010722C), очевидно, что выборка очень
мала (всего порядка 6000 аминокислотных остатков). А также эта выборка
составлена для белков со специфицеской функцией (Biotin and thiamin
synthesis associated), то есть мы ограничиваем общность. Некоторых пар
в этом блоке вообще не оказалось, этот факт подтверждает выводы сделаные
выше.
Более неожиданным кажется то, что матрица, полученная на основе довольно
большой выборки аминокислот, также отличается от blosum_62. Но и этому
можно найти довольно разумные объяснения. Например, у создателей blosum_62
была гораздо более обширная и общая выборка. (Более 2000 блоков выравненных
участков последовательностей, характеризующие более чем 500 различных
групп белков1). Другая причина - несовершенство
рассчетного аппарата. Возможно выбор другого основания логарифма, дал бы более
приемлемые результаты. Хотя следует заметить, что выбор основания логарифма
решающей роли не играет, так как при изменение основания все значения
умножаются на какую-то константу, а отношение между различными весами
остается неизменным. Также, в отличии от создателей blosum_62 перед логарифмированием
мы не возводили матрицу в степень.
И наконец, тайной покрытой мраком, для меня остался алгоритм и принцип работы
программы pairs_count.exe. Поэтому невозможно сказать, не произошла ли ошибка,
на этапе работы этой программы.
Все выше указанное привело к такому несоответствию моих результатов и матрицы
blosum_62.