2D-QSAR的一般步骤#
数据采集 –> 数据处理 –> 模型构建 –> 外部检测
Paper Database –> Descriptor calculation and selection –> MLR/PLS cross-validation –> External testing
QSAR的数据组成:化学结构特征数据和生物活性表征数据
化学结构特征数据(分子描述符)又称分子描述符(molecular descriptor),是描述分子结构属性的变量,其可以是物理化学参数、图形拓扑结构参数等。分子描述符在QSAR模型的构建中通常作为自变量出现,其可以由实验测得或计算获得。化学描述变量由组成性描述符,理化参数描述符、分子片断、连接描述符和其它参数构成。
组成性描述符:分子量,各类原子数目,芳香环数目,氢键供体、受体数,可旋转键数
理化参数描述符:疏水性参数(Lipophilicity Parameters),电性参数(Electronic Parameters),立体参数(Steric Parameters)
疏水性:非极性溶质与水混合时会形成互不相溶的两相,即非极性分子有离开水相进入非极性相的趋势,即所谓的疏水性(Hydrophobicity),所产生的效应称为疏水效应(Hydrophobic effect)
疏水性在药物的吸收、转运、药物-靶标相互作用以及药代动力学中都有十分重要的作用
由于疏水效应与溶质在溶剂中的分配比例有关,因此常用疏水常数或脂水分配系数(LogP)来表示,疏水常数在QSAR研究中是一个重要参数
疏水性参数(Lipophilicity Parameters):脂水分配系数( logP ),正辛醇/水分配系数 \(logP = log(\frac{C_o}{C_w})\)。P值越高,疏水性(hydrophobic)越强。P值越低,亲水性(hydrophilic)越强。
Lipinski Rule of Five(类药五原则)又称五倍率规则,其可解释约70%上市药物
化合物的分子量不大于500道尔顿
化合物中氢键供体(包括羟基、氨基等)数量不大于5个
化合物中氢键受体的数量不大于10个
化合物的脂水分配系数的对数值(logP)不大于5
化合物中可旋转键的数量不大于10个
五倍率成药规则揭示大部分成功药物不会有太大亲脂性(logP<5),其原因在于:
* 脂溶性过大的化合物容易与血浆蛋白结合成大分子,不易透过生物膜,从而降低了其分配特性
* 脂溶性过大易造成药物在脂肪组织中的堆积,从而产生蓄积毒性
* 适当的调节LogP,可以有效改变药物半衰期,从而改变给药剂量和给药半衰期
LogP的理论预测方法:在QSAR研究中,尽管分配系数的实验值较计算值更有价值,但对于没有实验值或很难用实验法来测定的化合物,可靠的估算方法变得十分必要。
预测方法包括碎片加合法和基于分子性质的计算方法
碎片加合法:碎片加合法的基础是假定分子的疏水常数具有加合性。把分子划分为基本片段,每种特定的基本片段具有特定的贡献值,整个分子的logP值是其所含的所有片段贡献的总和。片段的贡献值为取代基疏水常数(substituent hydrophobic constant),用 π 表示,可经计算获得,亦可通过查表获得。碎片加合法的优势在于其概念清楚,计算快捷,结果精度较高,适用范围广,因此是目前应用最广泛的方法。
基于分子性质的计算方法:
分子表面积法:耶洛夫斯基(Yalkowsky)最早报道了分子的表面积与logP的关系。
分子极性表面(Polar Surface Area, PSA):极性原子以及与之相连氢原子的表面积加和
PSA广泛用于吸收或扩散性质的预测
电性参数(Electronic Parameters)
Hammett电性常数(𝝈):芳香环间位或对位上侧链取代基对分子反应性的影响(表示芳香取代基的诱导和共轭效应之和),用参数𝝈表示,正值表示为吸电子基,负值表示为推电子基。 \(σ=log(K_x/K_H)\) \(K_H\), \(K_x\) :苯甲酸和相应的取代苯甲酸在25摄氏度水溶液中的电离常数。值的正负可以反映基团吸电子或给电子能力。值的大小可以反映反应能力的强弱。
立体参数(Steric Parameters)
Taft立体参数(\(E_s\)):取代基团的大小对酸性介质中脂肪族化合物水解速率的影响,其值均≤0(氢为最小基团)。 \(E_s=log(K_s/K_H)\) 其中: \(K_H\) =乙酸甲脂的酸水解速率常数。\(K_s\) =酰基上取代的乙酸甲脂的酸水解反应速率常数。取代基越大,水解速率越慢,\(E_s\) 越负。氢的 \(E_s\) 值最大,为零。
\(-CCl_3\) \(E_s\) =-2.06
\(-CF_3\) \(E_s\) =-1.16
分子片断描述符:分子片断描述符将分子中某一特征片断,如原子片断、环片断以及亚结构片断作为描述符代码,是一种拓扑学范畴的描述符。
由于分子片断描述符仅考虑彼此独立的分子片断,而可能丢失分子结构内部各基团的排列位置与相互联系的信息,因此产生了分子连接指数描述符
分子连接性指数:分子连接性指数反应了分子中各原子排列状况、分支大小,其与多种理化常数及生物活性相关
分子片段组成和分子片段连接关系进一步拓展构成分子片段与连接描述符,即分子指纹(molecular fingerprint)
其它参数:此外还有位置描述符、环境描述符、几何描述符等,有时为了尽可能地减少信息损失,可同时并用几种描述符。
活性数据又可称为应变量,由实验测定,可以是连续的如“y=pC”,也可以是离散的如“活性-非活性”、“弱-中-强”等。在QSAR中,应变量活性参数通常以产生标准生物效应时药物的物质的量剂量或物质的量浓度的负对数(log1/C)表示。
药物的生物活性定义为产生预定的生物效应时所需剂量或浓度:
半数有效量EC/D_50:产生最大生物效应一半时的浓度/剂量(effective)
半数致死率LD_50:一半死亡时的剂量(lethal)
抑制活性IC_50:活性被抑制50%时抑制剂的浓度(inhibitory)
全抑制浓度MIC:完全抑制所需最低浓度(最低抑制浓度,minimum)
对生物活性数据的要求:
准确
有代表性
同源
数量尽可能多
QSAR的建模(分析)方法
目前,几乎所有探索化合物结构-活性关系的分析方法都是以统计学为基础的。进行QSAR数据分析,最常采用的建模种类包括:根据用途分为:回归分析和分类分析(模式判别)。根据算法分为:线性方法和非线性方法。此类方法均属于化学计量学(Chemometrics)范畴。
建立模型的方法是影响 QSAR模型质量的关键因素。目前最常用的建模方法:线性方法包括多元线性回归,主成分回归,偏最小二乘法。非线性方法包括人工神经网络,支持向量机,朴素贝叶斯。线性方法通常适用于回归分析,但很少用于分类分析。非线性方法通常适用于回归与分类分析,一般认为非线性方法是人工智能的基础。
线性回归分析是指对一组数据进行最小二乘拟合并建立函数关系的过程。当有几种性质可能对活性有贡献时,可用多元线性回归来处理。事实上,因变量只受一个自变量影响的情况非常少见,通常由几个自变量共同影响一个因变量。
在QSAR建模中,经典的多元线性方法包括Hansch分析法和Free-Wilson分析法,其可用于同源先导化合物活性的优化和预测,分析药物作用机制,推测受体模型结构等。其最大优点是可获得物理意义明确的因果模型。
回归模型评判方式:\(R^2\) 和S
有很多内部检验的方法可以用来评估一个模型的拟合能力、稳定性和内部预测能力,如相关系数(决定系数)、交互检验以及各种残差分析(均方根误差、标准偏差等)。
相关系数(R) \(R = \sqrt{1-\frac{\sum (y_{pred}-y_{exp})^2}{\sum (y_{exp}-y_{mean})^2}}\) R越高,s越小,表明模型的拟合能力越强。
标准偏差(s) \(s = \sqrt{\frac{\sum (y_{pred}-y_{exp})^2}{n-k-1}}\) 其中 \(n ≥ 5k\), n为样本数,k为自变量数目(分子描述符数目)
R值注意问题:
虽然R是衡量总回归效果的重要标志,但是R值的大小与回归方程中因变量个数n(样本数量)以及自变量个数k(分子描述符数量)有关。
当n相对于k不大时,会获得较大的R值,即容易产生偶然相关(过拟合, overfitting),特别是当n=k+1时,即使k个自变量与因变量Y完全不相关,亦有R=1的结果。
因此进行多元线性回归时要注意n与k的比例。一般认为,参与回归分析的化合物数目n与所得到的关系式中参数项数目k(即分子描述符个数)之比应不小于5:1(至少4:1)
分子描述符取舍原则:若交叉相关系数>0.9,说明两参数高度相关,即回归方程中保留一个即可,对两个条件相似参数可删除与目标值相关性小的参数。