Пример использования трехмерного QSAR анализа для предсказания активности низкомолекулярных соединений в отношении данного белка.

На Главную
Шестой семестр
     

Пространственное выравнивание активных конформаций исследуемых веществ

Генерируем наиболее энергетически выгодные конформации веществ:
obconformer 100 100 compounds.sdf > compounds_best_conformer.sdf
Выравниваем с помощью Open3DALIGN
import type=SDF file=compounds_best_conformer.sdf
align object_list=1
save file=aligned.sdf



aligned.sdf
Меняем кодировку и удаляем ненужную информацию из заголовка:
iconv -c -f utf-8 -t ascii aligned.sdf > aligned_ascii.sdf
sed -e 's/.*HEADER.*\([0-9][0-9]\).*/\1/' -e 's/\(.*M END.*\)/\1\n$$$$/' aligned_ascii.sdf > temp
sed -n '/^[0-9a-zA-Z \$\.-]*$/ p' temp > aligned_ok.sdf
rm temp

3DQSAR

open3dqsar.sh

import type=sdf file=aligned_ok.sdf
import type=dependent file=activity.txt
set object_list=60-85 attribute=TEST
set object_list=86-88 attribute=EXCLUDED
box
calc_field type=VDW force_field=MMFF94 probe_type=CR
cutoff type=max level=5.0 field_list=1
cutoff type=min level=-5.0 field_list=1
zero type=all level=0.05
sdcut level=0.1
nlevel
remove_x_vars type=nlevel
pls
Построим регрессионную модель:
          Exp.   Cum. exp.        Exp.   Cum. exp.
PC    var. X %    var. X %    var. Y %    var. Y %        SDEC          r2
--------------------------------------------------------------------------
 0      0.0000      0.0000      0.0000      0.0000      0.9494      0.0000
 1     15.9480     15.9480     32.8386     32.8386      0.7780      0.3284
 2      5.1333     21.0813     36.3625     69.2011      0.5269      0.6920
 3      4.6235     25.7048     15.6991     84.9002      0.3689      0.8490
 4      3.8908     29.5956      7.5246     92.4248      0.2613      0.9242
 5      4.0108     33.6064      2.8661     95.2909      0.2060      0.9529
Коэффицент корреляции r2 для данной регрессионной модели близок к 1, для всех, кроме 1.

Проведем кросс-валидацию:

cv type=loo runs=20
получаем довольно плохие значения q2
PC        SDEP          q2
--------------------------
 0      0.9658     -0.0348
 1      0.9164      0.0683
 2      0.9733     -0.0509
 3      0.9667     -0.0368
 4      0.9880     -0.0829
 5      0.9497     -0.0006

Предсказание активности тестовой выборки:
PC    r2(pred)        SDEP
--------------------------
 0      0.0000      1.0362
 1      0.2655      0.8881
 2      0.3296      0.8484
 3      0.2353      0.9061
 4      0.2754      0.8821
 5      0.2536      0.8953
Хотя r2 значительно больше 0, но еще далеко до 1.

Попробуем предсказать активность 3 веществ с 86 по 88

Проведем тот же анализ, но используя выравнивание и конформации, полученные с учетом структуры активного центра белка-мишени (берем конформации из compounds.sdf)
          Exp.   Cum. exp.        Exp.   Cum. exp.
PC    var. X %    var. X %    var. Y %    var. Y %        SDEC          r2
--------------------------------------------------------------------------
 0      0.0000      0.0000      0.0000      0.0000      1.7139      0.0000
 1     15.0134     15.0134     30.0279     30.0279      1.4337      0.3003
 2      9.8880     24.9014     16.2796     46.3075      1.2559      0.4631
 3      7.1471     32.0485      9.1218     55.4294      1.1442      0.5543
 4      7.3622     39.4107      4.7591     60.1884      1.0814      0.6019
 5      4.8158     44.2265      6.2423     66.4308      0.9930      0.6643
PC        SDEP          q2
--------------------------
 0      1.7420     -0.0331
 1      1.6679      0.0530
 2      1.6959      0.0209
 3      1.7622     -0.0572
 4      1.8490     -0.1638
 5      1.9588     -0.3062>
PC    r2(pred)        SDEP
--------------------------
 0      0.0000      1.0253
 1     -0.2270      1.1357
 2     -0.0213      1.0361
 3      0.0973      0.9742
 4      0.1156      0.9642
 5      0.0336      1.0079
Используя данную модель, предскажем активности 3 веществ из тестовой выборки:
set object_list=60-85 attribute=TRAINING
set object_list=86-88 attribute=TEST

pls
predict
Получаем:
External predictions for dependent variable  1 (activity)
--------------------------------------------------------------------------------------------------------------------------------------
    N   ID    Name                                      Actual           1           2           3           4           5    Opt PC n
--------------------------------------------------------------------------------------------------------------------------------------
   86   86    01                                        0.0000      7.1119      7.5466      7.4119      7.6262      7.7234           1
   87   87    44                                        0.0000      6.9428      7.1202      7.0946      7.3278      7.5477           1
   88   88    72                                        0.0000      5.5073      5.2436      5.1697      5.4378      5.4696           3
Наилучшее значение q2 достигается при PC=1, значит наиболее точное предсказание активностей:
External predictions for dependent variable  1 (activity)
----------------------------------------
    N   ID    Name           1   
---------------------------------------
   86   86    01           7.1119  
   87   87    44           6.9428
   88   88    72           5.5073