欢迎光临湖南银杏可靠性技术研究所有限公司官网!

资讯分类

基于性能退化的可靠性分析技术系列之(六) 性能退化数据预处理技术

  • 分类:市场分析
  • 作者:
  • 来源:
  • 发布时间:2017-09-25
  • 访问量:196

【概要描述】在进行基于性能退化的可靠性建模和寿命预测时,为了判断产品的退化失效情况,通常选几项可以反映产品健康状态的主要技术性能指标作为特征性能参数,当这几项特征性能参数中一项或几项超出某个门限值(即失效阈值)时,则该产品出现退化失效。 特征性能参数的选取必须具备两个条件:(1)作为特征性能参数的性能指标必须有准确定义而且能够进行监测;(2)随着产品工作或试验时间的延长,特征性能参数有明显的趋势性变化,能客观

基于性能退化的可靠性分析技术系列之(六) 性能退化数据预处理技术

【概要描述】在进行基于性能退化的可靠性建模和寿命预测时,为了判断产品的退化失效情况,通常选几项可以反映产品健康状态的主要技术性能指标作为特征性能参数,当这几项特征性能参数中一项或几项超出某个门限值(即失效阈值)时,则该产品出现退化失效。 特征性能参数的选取必须具备两个条件:(1)作为特征性能参数的性能指标必须有准确定义而且能够进行监测;(2)随着产品工作或试验时间的延长,特征性能参数有明显的趋势性变化,能客观

  • 分类:市场分析
  • 作者:
  • 来源:
  • 发布时间:2017-09-25
  • 访问量:196
详情

在进行基于性能退化的可靠性建模和寿命预测时,为了判断产品的退化失效情况,通常选几项可以反映产品健康状态的主要技术性能指标作为特征性能参数,当这几项特征性能参数中一项或几项超出某个门限值(即失效阈值)时,则该产品出现退化失效。

 

特征性能参数的选取必须具备两个条件:

(1)作为特征性能参数的性能指标必须有准确定义而且能够进行监测;

(2)随着产品工作或试验时间的延长,特征性能参数有明显的趋势性变化,能客观反映产品的健康状态。

 

而产品可测的性能参数往往有很多,如何通过数据预处理,挑选出符合要求的性能退化特征量,是决定寿命预测工作成败的关键。套用机器学习领域中的一句名言,“数据和特征决定了可靠性问题解决程度的上限,而模型和算法只是逼近这个上限”。

所以,咱们就具体说一说数据预处理和数据特征提取技术。

 

未经预处理的数据可能存在的问题

通过性能参数测试,我们能得到未经处理的参数数据,这时的数据可能有以下问题:

(1)不属于同一量纲。即特征的规格不一样,不能够放在一起比较。

(2)信息冗余。对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或“不及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。

(3)定性特征不能直接使用。某些机器学习算法和模型只能接受定量特征的输入,那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值,但是这种方式过于灵活,增加了调参的工作。

(4)存在缺失值。缺失值需要补充。

(5)信息利用率低。不同的机器学习算法和模型对数据中信息的利用是不同的,之前提到在线性模型中,使用对定性特征哑编码可以达到非线性的效果。类似地,对定量变量多项式化,或者进行其他的转换,都能达到非线性的效果。

数据预处理方法

无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化的方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换为标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0,1]等。

 

标准化与归一化的区别是,标准化是依据特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依据特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有同一的标准,也就是说都转换为“单位向量”。

对定量数据二值化

定量特征二值化的核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。

对定性数据哑编码

通常使用哑编码的方式将定性特征转换为定量特征:假设有N种定性值,则将这一个特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展值为1,其他扩展值为0。哑编码的方式相比直接指定的方式,不用增加调参的工作,对于线性模型来说,使用哑编码后的特征可达到非线性的效果。例如,为了研究四季的影响,可采用下述编码方式:

缺失值的计算

缺失值的计算有五种常用方法。

(1)个案剔除法。如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除。如果缺失值所占比例比较小,这一方法比较有效。具体多大的比例算是“小”比例,学术界意见不一(5%或20%)。局限性:以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。特别是当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。

(2)均值替换法。将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果确实值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象中的取值次数最多的值来补齐该缺失的变量值。但这种方法会产生有偏估计,对变量的均值估计不会产生影响,但这种方法是建立在完全随机缺失的假设之上的,而且会造成变量的方差和标准差变小。

(3)热卡填充法。对于一个包含缺失值的变量,热卡填充法在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来判定哪个变量(如变量Y)与缺失值所在变量(变量X)最相关。然后把所有个案按Y的取值大小进行排序,那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。

(4)回归替换法。回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望对缺失值进行替换,与前几种插补方法比较,该方法利用了数据库中尽量多的信息。弊端:(a)但是该方法容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。(b)研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。

(5)多重替换法。多重估算是Rbubin等人于1987年建立起来的一种数据扩充和统计分析方法,作为简单估算的改进产物。首先,多重估算技术用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自于各个数据集的统计结果进行综合,得到总体参数的估计值。由于多重估计技术并不是用单一的值来替换缺失值,而是试图产生缺失值的一个随机样本,这种方法反映出了由于数据缺失而导致的不确定性,能够产生更加有效的统计推断。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。

数据变换

常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。单变元函数的数据变换可以使用一个统一的方式完成。

数据预处理方法回顾

表1 数据预处理方法汇总表

 

特征选择方法

当数据预处理完成后,我们需要选择有意义的特征输入可靠性分析算法和模型进行训练。

特征选择与降维有着些许的相似点,两者达到的效果是一样的,就是试图去减少特征集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:降维的方法主要是通过属性间的关系,如组合不同的属性得新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有改变原始的特征空间。

特征选择的目标是:“一个正确的数学模型应当在形式上是简单的。构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,当然此时的挑选出的特征就应当能够对问题有更好的解释。”

(a)提高预测的准确性;

(b)构造更快、消耗更低的预测模型;

(c)能够对模型有更好的理解和解释。

通常来说,从以下两个方面考虑来选择特征,如表2所示。

表2 特征选择依据

(本文部分内容为原创,仅供学习参考,如需转载,请务必标明出处。)

作者介绍

冯静

女,1975年10月生,中国共产党党员,安徽芜湖人,于2016年7月从中国人民解放军国防科技大学转业,现任湖南银杏数据科技有限公司董事、总工程师,银杏可靠性实验室副主任。主要从事小子样复杂系统信息融合、复杂系统状态感知与健康管理、装备可靠性分析与寿命预测领域的教学科研工作,讲授“数据分析与建模”、“应用统计分析”、“计算方法”、“试验鉴定理论”等课程10余门,主持科研项目10余项,其中国家自然科学基金2项。曾为华为公司、三一重工提供了产品可靠性咨询、培训等服务,获军队科技进步二等奖2项,出版《小子样复杂系统可靠性信息融合方法及其应用》、《装备可靠性与综合保障》等教材专著8部,发表学术论文60余篇,申报或授权专利8项、软件著作权5项。现为中国运筹学会可靠性分会理事。

扫二维码用手机看

CONTACT INFORMATION

联系方式

长沙经济技术开发区东六路南段77号金科亿达科技城B49-2

OFFICIAL ACCOUNTS

公众号

欢迎关注我们的官方公众号

公众号二维码

ONLINE MESSAGE

客户留言

留言应用名称:
客户留言
描述:

湖南银杏可靠性技术研究所有限公司版权所有    联系电话:0731-88288662    湘ICP备17008517号-1    网站建设:中企动力长沙    |    后台管理    本网站支持IPV6