首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
[目的]探索一种有效的组合预测方法,用于定量构效关系(QSAR)的研究分析。[方法]提出一种基于支持向量机回归(SVR)与K-最近邻法(KNN)的组合预测方法:以均方误差(MSE)最小为择优准则,对SVR实施核函数寻优;基于最优核函数以SVR进行描述符筛选并得到保留描述符;以"多轮末尾强制淘汰法"阐述各保留描述符对预测精度影响的程度;基于保留描述符,以不同KNN预测值反映样本集异质性并构建子模型,最后基于SVR以留一法实施组合预测。运用该组合预测方法研究磺酰脲和三唑并嘧啶磺酰胺类除草剂QSAR建模。[结果]建模结果表明,基于SVR与KNN的组合预测方法在参比模型中预测精度最高,具有结构风险最小、非线性、能有效克服过拟合、泛化推广能力优异等优点。[结论]基于SVR与KNN的组合预测具有许多优点,在QSAR研究中应用前景广泛。  相似文献   

2.
应用ChemWindow绘图软件对50个有机酮化合物作图,通过SymApps程序计算分子3D构型得到其分子空间坐标.在Wiener指数基础上定义了空间距离指数YW,利用该指数计算分子空间坐标,并对有机酮的理化性质进行定量结构-性质关系(QSPR)研究,采用线性回归方法建立了有机酮化合物的沸点,色谱保留指数和摩尔折射率与距离指数YW的QSPR模型,相关系数均大于0.9.统计分析结果表明模型具有较好的预测能力和可靠性.  相似文献   

3.
李冉  姜朋  贺影  向妍  邓小龙  周玮 《安徽农业科学》2014,42(32):11470-11472
[目的]构建可靠的QSAR模型用于评价醇类化合物的毒性。[方法]利用MLR、SLR和SVR 3种方法研究60种醇类化合物辛醇/水分配系数lgKow和水溶解度lgSw这两个指标与mX的相关性。[结果]模型评估结果显示出MLR和SLR的建模能力与文献方法一样优异,SVR在具有合适核函数时其建模能力也能表现出优异的泛化推广能力。[结论]该研究可为QSAR模型的构建提供参考。  相似文献   

4.
首先基于支持向量回归(SVR)依均方根误差最小原则确定最优核函数,再以最优核函数为基础,进行SVR非线性自变量筛选,最后以所选自变量进行建模预测.将该方法应用于酚类化合物的QSAR研究,最优核函数确定为径向基核,最终保留自变量为疏水性参数(lgp)与拓扑指数(Am3).结果表明:基于SVR进行变量筛选能有效地剔除无关自变量,进一步改进SVR对小样本数据的建模预测能力.该方法在农业环境毒性污染物的QSAR研究领域有较广泛的应用前景.  相似文献   

5.
对具有抑制人早幼粒白血病细胞(HL-60)活性的倍半萜类化合物进行二维定量构效关系研究,利用遗传算法建立2D-QSAR模型,得到10个具有较好预测能力的QSAR模型。分析模型得出:脂水分配系数(ALogP)、分子量(Molecular_Weight)与化合物活性呈正相关,偶极距x分量(Dipole_X)、分子表面积(Molecular_SurfaceArea)与化合物活性呈负相关;倍半萜2D-QSAR模型中独特的2个分子参数分别是VSA_AlogP[2]和VSA_AlogP[10];VSA_AlogP[2]参数与化合物抗癌活性呈正相关,在此区域内增加羟基等影响分子脂水分配系数的官能团能增加化合物的抗癌活性,VSA_AlogP[10]参数与化合物活性呈负相关,此区域内减少羟基等影响分子酯水分配系数的官能团会增加化合物的抗癌活性。该组模型将为新型抗癌类药剂的筛选以及新型抗癌类药物设计提供指导。  相似文献   

6.
基于RS的森林蓄积量主成分回归估测   总被引:1,自引:0,他引:1  
通过对影响蓄积量的因子进行相关性分析,筛选出与蓄积量存在较好相关性的指标作为自变量。但其自变量间存在多重共线性,会对模型稳定性、预测精度产生影响。通过多元统计分析中的主成分分析法,构造出影响密云县森林蓄积量的主成分,然后与蓄积量进行回归,得到主成分回归,并与一般线性回归模型进行比较。结果表明:主成分线性模型在拟合度、模型适用性与预测精度上都优于一般线性模型。主成分回归模型的复相关系数为0.809,预测精度达到88.26%。  相似文献   

7.
根据相关系数法筛选出与马尾松毛虫各级危害程度的危害面积相关关系都比较密切的气象因子,分别建立多对多线性回归模型、脉冲响应函数模型、线性差分方程之带输入项的线性自回归模型、人工神经网络模型以及双重筛选逐步回归模型5种马尾松毛虫危害程度分级预报的数学模型。结果表明,运用所建立的5种分级预报模型对预留的4年共16组样本进行预测结果检验,都取得较好的预测效果,其中以线性差分方程之带输入项的线性自回归模型的预测效果最好,人工神经网络模型的预测效果次之,双重筛选逐步回归模型最差。  相似文献   

8.
为了研究三唑噻吩并嘧啶衍生物对小麦赤霉菌抑菌活性(G/%)的定量构效关系(QSAR),按照分子的拓扑环境编程计算了14种上述化合物的电性距离矢量(M_D)。通过最佳变量子集回归,建立了它们的二参数(M_(26)、M_(32))QSAR模型,非交叉验证相关系数(R~2)与逐一剔除法交叉验证相关系数(R_(cv)~2)分别为0.857、0.648,显示良好的稳健性和预测能力。根据进入模型可知,影响三唑噻吩并嘧啶衍生物对小麦赤霉菌抑菌活性的主要因素是C-、-O等结构碎片。  相似文献   

9.
应用支持向量回归(Support vector regression,SVR)方法,结合粒子群参数寻优(Particle swarm optimization,PSO)技术,对分子结构参数与分子性能之间的关系进行研究来预测阴离子表面活性剂的临界胶束浓度.并与基于人工神经网络模型的预测结果进行了比较.结果表明:对于相同的训练样本和检验样本,支持向量回归比BPNN模型有更高的预测精度.  相似文献   

10.
基于水稻冠层高光谱的叶片SPAD值估算模型研究   总被引:1,自引:0,他引:1  
为进一步提高水稻冠层光谱对叶片叶绿素相对含量(soil and plant analyzer development,SPAD)值的反演精度,利用光谱仪和叶绿素计实测了水稻全生育期的冠层高光谱反射率和SPAD值,并对原始光谱反射率及一阶导数光谱与叶片SPAD值进行了相关性分析;利用主成分分析(principle component analysis,PCA)对原始光谱数据进行降维,将得到的主成分作为输入变量,分别应用逐步多元线性回归分析法(stepwise multiple linear regression,SMLR)与支持向量回归(support vector regression,SVR)构建叶片SPAD值的高光谱估算模型;另分析322种冠层光谱参数与叶片SPAD值之间的相关关系,筛选相关系数高的14种特征参数作为输入变量,分别应用逐步回归与支持向量回归构建SPAD值的高光谱估算模型,并进行验证。结果表明,叶片SPAD值与水稻冠层原始光谱反射率的相关性在669 nm处高达-0.876,与一阶导数光谱的相关性在543 nm处最高达-0.834;不同模型的精度值各异,以特征参数为输入变量建立的逐步回归模型和SVR模型的均方根误差RMSEv分别为2.926、3.895,相对分析误差RPD分别为2.064、1.55。而基于主成分分析建立的逐步回归模型和SVR模型的RMSEv分别为3.349、2.631,RPD分别为1.803、2.295。对比发现主成分分析结合支持向量机模型可以很好地预测叶片SPAD值。  相似文献   

11.
土壤是陆地生态系统最大的碳库,在提升生态系统服务功能和调节气候变化等方面发挥关键作用。对复杂多变环境下土壤有机碳(SOC)含量的精确预测将有助于正确评估区域土壤质量和碳汇功能。本研究以亚热带丘陵区一个典型小流域为研究对象,以地形、气候和植被三类环境变量为驱动因子,分析支持向量机回归(SVR)、随机森林(RF)、极端梯度提升算法(XGBoost)和轻量级梯度提升机(LightGBM)四种不同的机器学习算法在土壤(0~20 cm)SOC含量预测中的精度差异,并筛选影响SOC分布的主要环境影响因素。结果表明,RF模型、XGBoost模型和LightGBM模型均能较好预测SOC含量,以RF模型的表现相对最佳(R^(2)=0.540),其预测精度优于XGBoost(R^(2)=0.528)和LightGBM模型(R^(2)=0.504)。而SVR模型的预测精度(R^(2)=0.427)低于模型预测精度的最低可接受值0.50,并不适用于亚热带丘陵地貌SOC含量的预测。相关分析表明,在亚热带丘陵地貌区,地形(主要为海拔)对几种模型预测的贡献最大,是预测SOC的重要环境变量。基于四种模型预测的SOC数字制图显示,SOC空间分布趋势总体相似,均表现为北部区域、西南和东南边缘区域SOC含量较高,而中部区域SOC含量普遍偏低。  相似文献   

12.
应用美国环境保护署(United States Environmental Protection Agency,简称EPA)开发的TEST软件对典型农业污染化合物毒性的QSAR做初步预测。包括TEST软件利用QSAR方法预测化合物毒性所采用的描述符,毒性预测的外部检验方法。之后运行软件就对农产品污染较大的多环芳烃和氯代苯的毒性进行预测,预测值与试验值间的误差不大,TEST软件能快速输出分析结果。通过对毒性评估软件TEST的学习,最后就软件的优缺点进行简单的分析。  相似文献   

13.
高精度土壤理化属性的空间分布图件是环境保护、土壤管理及精准农业不可或缺的要件,土壤特性空间异质性的普遍存在是土壤理化特性精确预测的一大难题。以土壤阳离子交换量(CEC)为对象,通过比较不同的空间插值方法,来探讨土壤属性的高精度预测方法。通过采样实测表层土壤阳离子交换量,利用普通线性回归、地理权重回归及二者残余的克里格进行空间插值,来比较不同方法的插值精度和制图效果。结果表明,地理权重回归残余克里格法的精度最高,其预测值与实测值的回归决定系数达90%,普通线性回归的精度最低。在回归残余分析中,普通线性回归残余对CEC预测精度提高的幅度达34%,而地理权重回归残余对预测精度提高程度为9%,相对较小。说明地理权重回归及回归克里格法也是较好的空间预测方法。在制图效果上,2种残余法的预测图在空间上过渡自然,平缓,能较好地反映出CEC在空间上的变化细节,与实际情况吻合较好。对于那些环境影响因素明确,且与之存在线性相关的土壤属性,地理权重回归残余克里格法及回归克里格法可作为其高精度空间预测及制图的有效工具。  相似文献   

14.
以皖北地区采集的115个砂姜黑土样本为研究对象,获取土壤样本光谱数据,采用竞争性自适应重加权算法(CARS)、连续投影算法(SPA)、随机森林特征选择算法(RFFS)对土壤总氮含量特征波长进行选择,并分别应用偏最小二乘回归(PLSR)、支持向量机回归(SVR)、最小绝对值收缩和选择算子回归(LASSO)建立土壤总氮含量估算模型。结果表明,除CARS-PLSR方法模型精度低于相应的全波长模型外,其他基于选定的特征波长进行建模的效果都优于全波长。综合比较各变量筛选与回归建模组合发现,RFFS方法从全波长(224个波长)中筛选出20个特征波长建立土壤总氮含量的LASSO模型效果最好,该模型在预测集上的决定系数(R2)和相对分析误差(RPD)值分别为0.787 1和2.130 1。RFFS-LASSO模型简单,预测效果好,对土壤总氮含量近地传感器设备开发具有一定的指导意义。  相似文献   

15.
支持向量机在害虫预测预报中的应用   总被引:1,自引:0,他引:1  
对支持向量机回归(SVR)在害虫预测预报中的应用进行了研究。用一步预测法对1个害虫发生量样本集进行预测,结果表明:SVR在所有参比模型中预测精度最高.具有较强的泛化推广能力,在害虫预测预报领域具有广泛的应用前景。  相似文献   

16.
在B3LYP/6-311++(d,p)水平上对26个咪唑并嘧啶类抗菌剂进行全优化和振动分析计算,得到各分子的量子参数、拓扑指数和热力学参数。应用遗传算法(GA)-主成分分析法(PCA)-神经网络(PNN)筛选出与抗菌活性密切相关的6个参数作为分子描述符;采用主成分神经网络方法建立了咪唑类抗菌剂与大肠杆菌抑制活性的定量结构—活性关系(QSAR)模型,同时采用内外部双重验证的方法检验模型的稳定性。模型的统计学参量如下:相关系数的平方(R~2)、留一法(LOO)交互验证相关系数(Q_(LOO)~2)、外部样本验证相关系数(Q_(F1)~2)、均方根误差(RMSE)分别为0.9991、0.9989、0.9996和0.155。结果表明:最低空轨道能(E_(lumo))和正辛醇/水分配系数(logP)是影响咪唑并嘧啶类杀菌剂的抗菌活性的主要因素,模拟外部验证和交叉验证表明模型具有良好的稳健性和预测能力,可用于同系列化合物抗菌活性的预测。  相似文献   

17.
土壤地力对水稻产量具有较大贡献,关键地力因子筛选和地力模型评估对指导农业管理实践有重要意义。分别选取湖南道县和澧县典型高中低产稻田50 cm深土壤剖面,间隔5 cm分层取样对其理化性质进行分析。依据皮尔森相关系数挑选出影响稻田地力的关键因素,利用多元线性回归和混合线性回归分别对稻田地力建模评估并比较。研究表明,决定稻田地力的土壤基本理化性质重要性排序为:阳离子交换量=钙离子钾离子速效钾pH值粘粒含量,都呈显著正相关性。模型比较中,按0-20 cm,20-30 cm,30-50 cm深度采样建立的多元混合线性模型对稻田地力预测效果最好,选用的固定效应包括:速效钾,速效磷,总磷,钙离子、钾离子,阳离子交换量,pH值,粘粒和砂粒含量,随机效应为饱和导水率,有机碳,钠离子和容重,所得模型能解释稻田地力总变异的85%,而不分层的多元线性回归模型则只可解释73%。  相似文献   

18.
通过烤烟理化指标建立烤烟感官评价BP神经网络预测模型。以河南地区223个烤烟样本为研究对象,通过因子分析,筛选了12项烤烟理化指标作为网络输入变量、10项感官评价指标作为输出变量构建预测模型。结果表明:构建的10个网络预测模型目标值与预测值拟合度较好。各网络模型线性回归分析预测值和目标值均呈现极显著相关性。除劲头模型(R2=0.6839)外,其余各感官指标预测模型对样本的整体方差解释率均可达到70%以上。说明所构建的BP网络模型可以较好地对烤烟各感官指标得分进行预测评价。  相似文献   

19.
支持向量机(Support Vector Machines,SVM)是一种具有坚实理论基础的新颖小样本学习方法。采用支持向量机回归(Support Vector Machine Regression,SVR)算法,用libsvm-2.89软件包对我国近年来的粮食产量进行回归预测,选择交叉验证法进行参数寻优,建立粮食产量和其影响因素的支持向量机回归模型。粮食产量预测平均相对百分误差为1.209%,均方根误差为581.191,相关系数为0.962 24。将预测结果与指数平滑模型、生产函数模型及多元线性回归模型进行了比较,用平均绝对百分误差、希尔不等系数及均方根误差对4种模型预测结果进行评价。结果表明,基于支持向量机的径向基核函数(RBF)模型预测粮食产量的精度优于其他预测方法。  相似文献   

20.
叶绿素是植被光合作用的重要物质,能够间接反映植被的健康状况和光合能力.高光谱技术的发展为大面积、快速检测植被叶绿素含量变化提供了可能.选取150组不同生长期的辣椒叶片作为研究对象,分别采集辣椒叶片的高光谱图像和叶绿素含量.利用随机森林特征选择算法进行数据筛选,结合线性回归、偏最小二乘回归、梯度提升回归树、随机森林回归等4种模型分别构建回归模型.结果表明:(1)利用随机森林特征选择算法筛选后波段建立的模型决定系数(r2)均大于0.8,说明该方法具有较高的稳定性和预测精度;(2)利用随机森林特征选择算法筛选的波段结合随机森林回归,其验证集的r2为0.9、均方根误差(RMSE)为1.87、平均绝对误差(MAE)为1.43.可以较为准确地预测辣椒叶片叶绿素含量,为后期利用高光谱成像技术大面积检测辣椒的生长状况提供了理论依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号