
化学化工异常数据检测方法研究
作品编号:SWHX0178 开发环境: WORD全文:28页 论文字数:13000字 此化学化工异常数据检测方法研究毕业设计完整版包含[论文] |
以下仅为极少介绍,详细内容请点击购买完整版!

为此,本文在调研目前常用的几种异常数据检测方法基础上,选用基于距离的方法中的非线性迭代偏最小二乘法,该法通过提取主成分后,能消除了光谱数据间的严重复共线性,从而使得模型的输入维数得到显著下降。最后,本文将偏最小二乘法实际应用鱼类近红外光谱数据试验,构建光谱数据与脂肪含量的定量预测模型,结果显示,它同多元线性回归方法比较,不仅识别出异常数据准确率高,而且误判率也较低。
该组数据在文献中由机理判定异常数据有10个,样本个体序号分别为1,3,10,12,39,40,41,43,44,45。基于PLS模型确认出最严重偏离正常样本的4个异常数据(见表1)。然而,对于用多元线性回归方法进行异常数据识别,据此检测出12个异常数据,对照机理的10个异常数据,它也只能准确识别序号为3,43,44,45这4个异常个体,而该方法却将8个正常数据误判为异常数据(见表1),误判很严重。造成的原因有两个:其一,其自变量相关矩阵 的几个最小特征根都非常接近于0,表明自变量间存在严重的复共线性,此时,若通过多元线性回归构建模型,其模型参数的估计将极不稳定;其二,用多元线性回归方法对该组数据进行异常数据检测,而该法往往只在单个异常数据存在时有效,此时若出现多个异常数据,使用该方法可能导致两种不良的后果:其一为掩盖(masking)现象,即未能识别出某些真正的异常数据;其二为淹没(swamping)现象,即将正常点误判为异常数据。诊断的起点在于识别,识别不出真正的异常数据,将意味着诊断的失败。还有,由于诊断技术主要是对模型假设合理性的检查,属于探索性分析,对于那些引起我们警觉的数据点还需做进一步工作,否则会使回归分析的估计精度下降,损失一些信息。出于这些考虑,所以在处理存在多个异常数据问题上,必须克服掩盖现象和淹没现象[21]。因此在处理该组数据时,使用多元线性回归法,不但不能正确找出异常数据,反而还把正常数据当成了异常数据,使人们产生惑解,没有排除不良影响,通过对两种方法的应用比较,发现多元线性回归法适用于线性较好的数据,不考虑质量参数之间相互干扰的影响,计算简单,公式含义清楚,对于数据向量较少的体系回归效果较好。而对存在复共线性、有多个异常数据和对线性不好的数据时回归效果不好,其模型的预测能力较差,同时在对观测数据处理时,往往计算比较繁琐,特别是对多组数据处理时,计算量很大,甚至难以手工完成。相反偏最小二乘法既可以使用全部数据又可以使用部分数据;不但把数据分解和回归融合在一起,得到的特征值向量直接与被测成分或性质相关,而且还能克服复共线性和处理存在多个异常数据的数据组中遇到的掩盖现象和淹没现象。
本生物化学毕业设计“化学化工异常数据检测方法研究”论文由清风毕业设计网[www.lunwen550.com]征集整理!
该组数据在文献中由机理判定异常数据有10个,样本个体序号分别为1,3,10,12,39,40,41,43,44,45。基于PLS模型确认出最严重偏离正常样本的4个异常数据(见表1)。然而,对于用多元线性回归方法进行异常数据识别,据此检测出12个异常数据,对照机理的10个异常数据,它也只能准确识别序号为3,43,44,45这4个异常个体,而该方法却将8个正常数据误判为异常数据(见表1),误判很严重。造成的原因有两个:其一,其自变量相关矩阵 的几个最小特征根都非常接近于0,表明自变量间存在严重的复共线性,此时,若通过多元线性回归构建模型,其模型参数的估计将极不稳定;其二,用多元线性回归方法对该组数据进行异常数据检测,而该法往往只在单个异常数据存在时有效,此时若出现多个异常数据,使用该方法可能导致两种不良的后果:其一为掩盖(masking)现象,即未能识别出某些真正的异常数据;其二为淹没(swamping)现象,即将正常点误判为异常数据。诊断的起点在于识别,识别不出真正的异常数据,将意味着诊断的失败。还有,由于诊断技术主要是对模型假设合理性的检查,属于探索性分析,对于那些引起我们警觉的数据点还需做进一步工作,否则会使回归分析的估计精度下降,损失一些信息。出于这些考虑,所以在处理存在多个异常数据问题上,必须克服掩盖现象和淹没现象[21]。因此在处理该组数据时,使用多元线性回归法,不但不能正确找出异常数据,反而还把正常数据当成了异常数据,使人们产生惑解,没有排除不良影响,通过对两种方法的应用比较,发现多元线性回归法适用于线性较好的数据,不考虑质量参数之间相互干扰的影响,计算简单,公式含义清楚,对于数据向量较少的体系回归效果较好。而对存在复共线性、有多个异常数据和对线性不好的数据时回归效果不好,其模型的预测能力较差,同时在对观测数据处理时,往往计算比较繁琐,特别是对多组数据处理时,计算量很大,甚至难以手工完成。相反偏最小二乘法既可以使用全部数据又可以使用部分数据;不但把数据分解和回归融合在一起,得到的特征值向量直接与被测成分或性质相关,而且还能克服复共线性和处理存在多个异常数据的数据组中遇到的掩盖现象和淹没现象。
本生物化学毕业设计“化学化工异常数据检测方法研究”论文由清风毕业设计网[www.lunwen550.com]征集整理!
相关毕业设计:
网站客服咨询
本站现有毕业设计作品均为学校答辩通过后征集或原创写作设计开发,集多年从事毕业论文工作经验及海量的资料,结合强劲的开发写作团队,全面面向广大朋友提供最直接的资源参考以及快速周到的写作设计服务。
购买后获取论文或有定做需求请加
客服微信号:hastp888
添加好友时请备注“论文”
客服微信号:hastp888
添加好友时请备注“论文”
作品目录排行