高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于p阶Welsch损失的鲁棒极限学习机

    作者简介: 陈剑挺(1994-),男,浙江台州人,硕士生,主要研究方向为机器学习、故障诊断。E-mail:chenjt666@163.com;
  • 中图分类号: TP18

Robust Extreme Learning Machine Based on p-Power Welsch Loss

  • CLC number: TP18

  • 摘要: 针对极限学习机(ELM)异常值敏感的问题,提出了一种基于p阶Welsch损失的鲁棒极限学习机。该方法的特点体现在以下3个方面:使用p阶Welsch损失代替常规ELM的均方误差损失,提高算法的鲁棒性;在目标函数中引入l1范数正则项,降低ELM网络模型的复杂度,增强模型的稳定性;采用快速迭代阈值收缩算法(FISTA)极小化目标函数,提升计算效率。对人工合成数据集和部分UCI回归数据集进行仿真,实验结果表明本文方法在鲁棒性、稳定性和训练时间上都具有很好的性能。
  • 图 1  ELM模型结构图

    Figure 1.  Model structure of ELM

    图 2  有异常值数据时不同损失函数下的拟合效果图

    Figure 2.  Fitting effect graph of different loss functions with outlier data

    图 3  损失函数及其梯度函数比较图

    Figure 3.  Comparison graphs of loss function and its gradient function

    图 4  $p$阶Welsch损失在不同参数$p$下的曲线图

    Figure 4.  Curves of p-power Welsch loss functions under different P

    图 5  $p$阶Welsch损失在不同参数$c$下的曲线图

    Figure 5.  Curves of p-power Welsch loss functions under different c

    图 6  人工数据集在20%异常值下的训练结果

    Figure 6.  Training results of synthetic datasets with 20% outliers

    图 7  不同参数$p$下测试集的RMSE

    Figure 7.  RMSE of text dataset under different $p$

    表 1  5种算法测试结果的RMSE和训练时长

    Table 1.  RMSE and training time of five algorithms under different outlier levels

    AlgorithmTraining time/sRMSE ± std
    Outlier=0Outlier=10%Outlier=15%Outlier=20%
    ELM0.0030.107 1±0.006 10.148 7±0.007 50.165 9±0.007 40.220 1±0.009 5
    ELM-huber0.0810.106 6±0.006 00.107 9±0.006 30.110 6±0.007 10.116 9±0.006 4
    ELM-Welsch0.0680.109 6±0.006 00.108 5±0.006 50.109 1±0.005 90.110 1±0.008 6
    ELM-p-Welsch0.0720.107 5±0.007 10.106 9±0.005 80.107 6±0.006 80.107 3±0.007 4
    ELM-PW-l10.0350.107 8±0.004 60.106 6±0.004 90.106 5±0.005 00.107 0±0.005 5
    下载: 导出CSV

    表 2  UCI回归数据集信息表

    Table 2.  UCI regression dataset

    DatasetFeatureSample
    TrainingTest
    Concrete9515515
    Housing14253253
    Servo58483
    Slump105251
    Wine red12799799
    Yacht6157157
    Airfoil5751751
    下载: 导出CSV

    表 3  算法参数设置

    Table 3.  Parameter settings of algorithms

    DatasetELMELM-WelschELM-p-WelschELM-PW-l1
    LLcLcpLcpλ
    Concrete70702.4702.41.3702.41.30.000 01
    Housing100502.5502.51.1502.51.10.000 1
    Servo40400.9400.91.5400.91.50.000 1
    Slump40201.5201.11.3201.11.30.000 001
    Wine red30400.9400.91.5400.91.50.001
    Yacht50602.5602.51.1602.51.10.000 000 1
    Airfoil50902.5902.21.1902.21.10.000 000 1
    下载: 导出CSV

    表 4  UCI回归数据集测试结果

    Table 4.  Test results of UCI regression datasets

    DatasetRMSE ± std
    ELMELM-huberELM-WelschELM-p-WelschELM-PW-l1
    Concrete0.262 0±0.015 60.225 1±0.009 70.224 4±0.015 70.219 4±0.015 80.218 5±0.012 9
    Housing0.241 1±0.019 60.217 1±0.011 10.212 0±0.014 40.209 8±0.014 60.206 8±0.010 6
    Servo0.374 0±0.043 40.218 2±0.026 60.214 9±0.026 90.210 1±0.025 80.209 3±0.023 8
    Slump0.195 4±0.031 80.156 1±0.024 10.142 8±0.014 00.138 8±0.013 10.138 3±0.011 6
    Wine red0.152 2±0.023 10.130 9±0.015 90.129 9±0.016 60.126 4±0.015 10.126 6±0.013 3
    Yacht0.269 4±0.073 70.133 0±0.028 90.120 9±0.028 60.118 8±0.026 40.116 7±0.023 6
    Airfoil0.234 8±0.007 40.200 6±0.009 00.196 1±0.011 10.194 9±0.010 30.194 3±0.007 6
    下载: 导出CSV
  • [1] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892. doi: 10.1109/TNN.2006.875977
    [2] HUANG G, HUANG G B, SONG S J. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32-48. doi: 10.1016/j.neunet.2014.10.001
    [3] WAN C, XU Z, PINSON P, et al. Probabilistic forecasting of wind power generation using extreme learning machine[J]. IEEE Transactions on Power Systems, 2014, 29(3): 1033-1044. doi: 10.1109/TPWRS.2013.2287871
    [4] 罗家祥, 罗丹, 胡跃明. 带权重变化和决策融合的ELM在线故障检测[J]. 控制与决策, 2018, 33(6): 1033-1040.
    [5] 徐凤, 刘爱伦. 基于小波核函数极限学习机的模型预测控制模拟[J]. 华东理工大学学报(自然科学版), 2015, 41(2): 185-191. doi: 10.3969/j.issn.1006-3080.2015.02.007
    [6] STEVICA C, MILOŠ B S, SAŠA V N. Hierarchical ELM ensembles for visual descriptor fusion[J]. Information Fusion, 2018, 41: 16-24. doi: 10.1016/j.inffus.2017.07.003
    [7] KASUN L L C, ZHOU H, HUANG G B, et al. Representational learning with extreme learning machine for big data[J]. IEEE Intelligent Systems, 2013, 28(6): 31-34.
    [8] TANG J, DENG C, HUANG G B. Extreme learning machine for multilayer perceptron[J]. Extreme Learning Machine for Multilayer Perceptron, 2016, 27(4): 809-821.
    [9] 胡义函, 张小刚, 陈华, 等. 一种基于鲁棒估计的极限学习机方法[J]. 计算机应用研究, 2012, 9(8): 2926-2930. doi: 10.3969/j.issn.1001-3695.2012.08.033
    [10] DENG W, ZHENG Q, CHEN L. Regularized extreme learning machine[C]//IEEE Symposium on Computational Intelligence and Data Mining, CIDM’09. USA: IEEE, 2009: 389-395.
    [11] ZHANG K, LUO M. Outlier-robust extreme learning machine for regression problems[J]. Neurocomputing, 2015, 151: 1519-1527. doi: 10.1016/j.neucom.2014.09.022
    [12] XING H J, WANG X M. 2013 Training extreme learning machine via regularized correntropy criterion[J]. Neural Computing and Applications, 2013, 23(7): 1977-1986.
    [13] HORATA P, CHIEWCHANWATTANA S, SUNAT K. Robust extreme learning machine[J]. Neurocomputing, 2013, 102: 31-44. doi: 10.1016/j.neucom.2011.12.045
    [14] CHEN K, LYV Q, LU Y. Robust regularized extreme learning machine for regression using iteratively reweighted least squares[J]. Neurocomputing, 2017, 230: 345-358. doi: 10.1016/j.neucom.2016.12.029
    [15] BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J]. SIAM Journal Imaging Sciences, 2009, 2(1): 183-202. doi: 10.1137/080716542
    [16] CHEN B D, XING L, WANG X, et al. Robust learning with kernel mean p-power error loss[J]. IEEE Transactions on Cybernetics, 2018, 48(7): 2101-2113. doi: 10.1109/TCYB.2017.2727278
    [17] PEI S C, TSENG C C. Least mean p-power error criterion for adaptive FIR filter[J]. IEEE Journal on Selected Areas in Communications, 1994, 12(9): 1540-1547. doi: 10.1109/49.339922
    [18] CHEN B, XING Lei, WU Z Z, et al. Smoothed least mean p-power error criterion for adaptive filtering[J]. Digital Signal Processing, 2015, 40: 154-163. doi: 10.1016/j.dsp.2015.02.009
  • [1] 郭妙吉金晶王行愚 . 基于多种灰度闪光刺激的P300脑-机接口性能研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180330002
    [2] 王德勋虞慧群范贵生 . 基于深度学习的面部动作单元识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190107003
    [3] 肖凌云马海燕 . 茂金属催化剂催化丙烯聚合的β-Me消除选择性研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190329005
    [4] 于中宝邵方明 . 并行系统中排列图的可靠性近似算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180531001
    [5] 张融周颖晏琦帆 . 分子内弱相互作用对共轭性的影响. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180902001
    [6] 李俊潮陈启斌谭慧玲孟晨晨刘洪来 . 基于Boc-D-丙氨酸的手性聚合物纳米颗粒的聚集诱导发光. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180514001
    [7] 常青张天宇赵冰冰 . 基于机器视觉的手机异形主板非标自动化检测算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180416006
    [8] 曹雅茜黄海燕 . 基于代价敏感大间隔分布机的不平衡数据分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180515001
    [9] 赖兆林冯翔虞慧群 . 基于逆向学习行为粒子群算法的云计算大规模任务调度. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190218001
    [10] 马振伟何高奇袁玉波 . 基于小样本深度学习的通风柜橱窗状态识别方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190412004
    [11] 张雪芹魏一凡 . 基于深度学习的驾驶场景关键目标检测与提取. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181023002
    [12] 张习习顾幸生 . 基于集成学习概率神经网络的电机轴承故障诊断. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206001
    [13] 王秋生曹红亮杲云 . 酸和谷胱甘肽的双重响应性聚合物胶束负载光敏剂用于肿瘤细胞的光动力治疗. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180411003
    [14] 董盛红陈金铸郭旭虹徐益升 . 可见光诱导Pd-Pt/RGO-g-C3N4催化苯甲醛选择性加氢. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180426001
    [15] 解冰朱宏擎 . 一种基于选择性卷积特征和最大后验高斯混合模型的细粒度图像分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180603001
    [16] 肖潮田佳刘峰张显杨王廷虎许立人顾邯沙张伟安 . 基于pH响应两亲性卟啉嵌段共聚物的光动力与化学联合治疗. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190128001
    [17] 田桢安书浩潘鹤林徐婷彭昌军 . 三嗪功能化共价有机框架材料吸附去除水溶液中的抗生素. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190428005
    [18] 吴唯杨晓格 . 两相溶液法制备有机质子酸掺杂Py-MMA共聚物及其导电与溶解性能研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180417001
  • 加载中
图(7)表(4)
计量
  • 文章访问数:  5158
  • HTML全文浏览量:  1396
  • PDF下载量:  1
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-12-14
  • 网络出版日期:  2019-10-15

基于p阶Welsch损失的鲁棒极限学习机

    作者简介:陈剑挺(1994-),男,浙江台州人,硕士生,主要研究方向为机器学习、故障诊断。E-mail:chenjt666@163.com
  • 华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海 200237

摘要: 针对极限学习机(ELM)异常值敏感的问题,提出了一种基于p阶Welsch损失的鲁棒极限学习机。该方法的特点体现在以下3个方面:使用p阶Welsch损失代替常规ELM的均方误差损失,提高算法的鲁棒性;在目标函数中引入l1范数正则项,降低ELM网络模型的复杂度,增强模型的稳定性;采用快速迭代阈值收缩算法(FISTA)极小化目标函数,提升计算效率。对人工合成数据集和部分UCI回归数据集进行仿真,实验结果表明本文方法在鲁棒性、稳定性和训练时间上都具有很好的性能。

English Abstract

  • 极限学习机(ELM)[1]是一种机器学习算法,一种有监督的单隐层前馈神经网络(SLFN)。它通过随机生成输入权重和偏置的方式将输入映射到高维隐层空间,具有训练速度快、泛化精度高的特点,并且该算法已被证明具有通用逼近能力[2]。因此,ELM已被广泛应用于回归、分类等问题之中,如风电预测[3]、故障检测[4]、醋酸精馏软测量[5]、图像识别[6]等。针对该算法输入权重不能改变的缺点,近些年开发了一些新的技术对ELM算法进行改进[7-8],但都是基于最小二乘法(Least Square,LS)来求解ELM的输出权重矩阵。最小二乘法的目标是学习未知的映射(线性或非线性),使得模型输出和标签值之间的均方误差(Mean Square Error,MSE)最小化。在均方误差损失中所有数据样本所占的权重都相同,因此当数据中有异常值存在时,最小二乘法为了达到极小化残差平方和的目标,必须迁就异常值,这往往会导致参数估计存在较大的偏差[9]

    为了减少数据中的异常值对算法参数估计的影响,Deng等[10]提出了一种基于加权最小二乘法的正则化鲁棒ELM,通过对各个数据样本赋予不同的权重以增加算法的鲁棒性。Zhang等[11]提出了基于${l_1}$范数的损失函数和${l_2}$范数正则项的鲁棒ELM,该算法使用增广拉格朗日乘子算法来极小化目标损失函数,有效地减少了异常值的影响。Xing等[12]用最大相关熵准则(Maximum Correntropy Criterion,MCC)代替最小均方误差准则,从而提高了算法泛化性能和鲁棒性。Horata等[13]提出了基于Huber损失函数的鲁棒ELM,并使用迭代重加权最小二乘(IRLS)算法来求解Huber损失函数的优化问题,但是该损失函数中并没有引入避免参数过拟合的机制。依据M估计理论,Chen等[14]提出了一个统一的鲁棒ELM框架,分别利用${l_1}$范数正则项和${l_2}$范数正则项来避免过拟合,利用4种损失函数(${l_1}$范数、Huber、Bisquare、Welsch)提高ELM网络的鲁棒性,并采用IRLS算法来求解,但同时指出对于${l_1}$范数正则项,IRLS算法并不是最佳选择,FISTA[15]算法在解决${l_1}$范数正则项问题时比IRLS算法更高效。

    Welsch估计方法是稳健估计(Robust Estimation)M估计中的一种方法。Welsch损失是基于Welsch估计方法的损失函数。当数据误差呈正态分布时,它与均方误差损失效果相当,但当误差呈非正态,如误差是由异常值引起时,Welsch损失比均方误差损失更具鲁棒性[14]。而且基于二阶统计度量的均方误差损失函数对数据中的异常值敏感,容易受到异常值影响,并不是鲁棒学习中的好方法[16-18]

    为了使算法兼具极限学习机的高效性和Welsch估计对异常值的鲁棒性,本文提出了一种基于$p$阶Welsch损失的鲁棒极限学习机算法。首先,提出了基于MPE(Mean p-Power Error)[17]改进的$p$阶Welsch损失函数,并用该损失函数替代ELM目标函数中的均方误差损失;其次,在目标函数中引入${l_1}$范数正则项来获得稀疏的ELM网络模型,防止模型过拟合,提高模型的稳定性,并采用快速迭代阈值收缩算法(FISTA)极小化改进的目标函数。在人工数据集和典型的UCI数据集上的仿真实验结果表明,本文算法在保证ELM网络稳定性的同时提高了模型的鲁棒性,并且缩短了训练时间。

    • ELM模型结构如图1所示。

      图  1  ELM模型结构图

      Figure 1.  Model structure of ELM

      假设有${N}$个任意样本$\left\{ {{{{x}}_i},{{{t}}_i}} \right\}_{i = 1}^N$,其中${{{x}}_i} =\left[{x_{i1}},\right.$$\left.{x_{i2}},...,{x_{in}}\right] \in {{\bf{R}}^n}$${{{t}}_i} = [{t_{i1}},{t_{i2}},...,{t_{im}}] \in {{\bf{R}}^m}$,隐层关于输入${{{x}}_i}$的输出为$h({{{x}}_i}) = [{h_1}({x_i}),{h_2}({x_i}),...,{h_L}({x_i})]$,其中${h_j}({x_i})$是隐层第$j$个节点的输出,其具体表达式为

      对于数据集$\left\{ {{{{x}}_i},{{{x}}_i}} \right\}_{i = 1}^N$,ELM的隐层输出为

      ${{T}}$是数据集标签:

      ${{\beta}} \in {{\bf{R}}^{L \times m}}$是输出权重矩阵:

      输出节点对输入${{{x}}_i}$的预测结果如下:

      对于ELM算法,其输入权重矩阵${{a}}$和偏置量${b}$是随机确定的,确定之后即不再改变。因此,网络训练的目标函数为

      其中${\left\| \cdot \right\|_2}$${l_2}$范数。

      采用最小二乘法求解式(6)中的目标函数,得到隐层的输出矩阵:

      其中${{H}}^{†} $是隐层输出矩阵${{H}}$的Moore-Penrose广义逆矩阵:

      为了进一步提高ELM的稳定性以及泛化能力,文献[2]提出了正则化ELM(RELM),网络的目标函数如下:

      其中:$\left\| {{\beta}} \right\|_2^2=\sum\limits_{i = 1}^L {\beta _i^2} $表示具有${l_2}$范数的正则项;${\lambda }$为正则化系数,求导可得:

    • ELM算法中的目标函数是均方误差(MSE)损失,该损失项对每个样本数据给予了相同的权重,这使得异常值对误差平方和的影响比其他数据大,导致参数估计对于异常值相当敏感。如图2所示,均方误差损失相比Welsch损失对异常数据更敏感。为此,本文提出了一种基于MPE改进的$p$阶Welsch损失作为损失函数来改进算法的鲁棒性。

      图  2  有异常值数据时不同损失函数下的拟合效果图

      Figure 2.  Fitting effect graph of different loss functions with outlier data

    • Welsch损失表示如下[14]

      文献[16-18]提出将误差的$p$阶次函数作为损失函数,并指出适当的$p$值可以更好地处理异常值。本文基于MPE对Welsch损失函数进行改进,提出了$p$阶Welsch损失函数,如式(12)所示。

      每个样本的$p$阶Welsch损失可以表示为

      其中:${e_i}=\dfrac{{{t_i} - {y_i}}}{s}$${y_i}$为对应样本${x_i}$模型的响应值,${t_i}$为样本的标签值,${t_i} - {y_i}$代表残差,$s = \dfrac{{{\rm{med}}(\left| {\rm{err}} \right|)}}{{0.674\;5}}$,med(|err|)代表所有残差绝对值的中位数。

      $p$阶Welsch损失的梯度函数如下:

      图3$p$阶Welsch损失函数、MSE损失函数及其梯度函数比较图。从图中可以看出,$p$阶Welsch损失中每个样本的误差控制在了0~1之内,且其梯度函数在误差超过一定值之后会减小,并不会像平方损失项的梯度函数一样随着误差的增大而增大,从而降低了异常值引起的大误差项对于参数估计的影响力。

      图  3  损失函数及其梯度函数比较图

      Figure 3.  Comparison graphs of loss function and its gradient function

      对于不同的$p$$c$$p$阶Welsch损失函数的曲线如图45所示。分析图4中的变化趋势可以看出,对于任意$p$值,$p$阶welsch损失函数都会随着误差的增大而增大,最终会在误差达到一定阈值时趋近于1.0,之后即使误差再增加,$p$阶Welsch损失也只是再向1.0靠近,变化甚微,从而降低了异常值所带来的大误差对模型训练的影响程度。并且,随着$p$值的减小,$p$阶Welsch损失函数的梯度函数的极值点会随着$p$值的减小而前移,即$p$阶Welsch损失函数关于误差变化最敏感的部分相对前移,因此,当$p$值过大时,$p$阶Welsch函数对于异常值的敏感程度会变大。

      图  4  $p$阶Welsch损失在不同参数$p$下的曲线图

      Figure 4.  Curves of p-power Welsch loss functions under different P

      图  5  $p$阶Welsch损失在不同参数$c$下的曲线图

      Figure 5.  Curves of p-power Welsch loss functions under different c

      图5给出了$p$阶Welsch损失函数在不同$c$值下的变化趋势,从中可以看出,随着c值的增大,$p$阶Welsch损失趋近于1.0时对应的误差值也会相应地增大。因此可以通过调整$p$$c$来降低$p$阶Welsch损失函数对于异常值的敏感程度。

      为了得到对异常值更具鲁棒性的ELM网络模型,将$p$阶Welsch损失函数代入到式(6)中,代替均方误差损失,得到目标函数如式(15)所示:

    • 为了控制ELM网络模型的复杂度,提高模型的稳定性,本文在目标函数中引入了正则项。最简单的正则化形式之一是${l_2}$范数,在目标函数中加入它可以促使输出权重矩阵${{\beta}} $中的值向0逼近但不为0。另一种常用的正则化是${l_1}$范数,也被称为lasso,当正则化因子$\lambda $足够小时,该范数的加入可以将输出权重${{\beta}} $中一些值训练为0,从而得到稀疏模型[14]。本文在目标函数中引入了${l_1}$范数正则项,

      将式(16)改写为

      其中:$L({{\beta}})=L({{H}}{{\beta}} ,{{T}})$$q({{\beta}})=\lambda {\left\| \beta \right\|_{l_1}}$。损失函数$L({{\beta}} )$的梯度可以表示为

      其中:${\lambda '}=\dfrac{p}{{s \cdot {c^2}N}}$${{\Lambda }}$是对角线矩阵,并且

      本文采用快速迭代阈值收缩算法(FISTA)对目标函数(式(16))求极小值。优化算法计算步骤如下:

      Algorithm 1 Robust ELM based on p-power Welsch loss and l1 regularization: ELM-PW-l1

      Input: ${\left\{{{{x}}_i},{{{t}}_i}\right\}}_{i = 1}^N{{\beta}}$, $L$,$\lambda $,$p$,$c$,${\rm{itermax}}$

      Output: $\,{{\beta}} $

      Step 1 Randomly generate input weights matrix ${{a}}$, and bias weight ${b}$

      Step 2 Calculate the output weight matrix ${{H}}$

      Step 3 Calculate Lipschitz constant $y = \max $$ ({\rm{eig}}({{{H}}^{\rm{T}}}{{H}}))$ and the gradient of loss function $\nabla L$

      Step 4 Initialize ${y_1} = {\beta _0} \in {R^n}$${t_1} = 1$$j = 1$

      Step 5 Repeat when j < itermax

      (1) $\,{\beta _j} \!=\! \mathop {\arg \min }\limits_{{\beta}} \left\{ {\dfrac{\gamma }{2}{{\left\| {{y_j} \!-\! ({{\beta}_{j - 1}}\! - \!\dfrac{1}{\gamma }\nabla L({\beta _{j - 1}}))} \right\|}^2} + q({y_j})} \right\}$

      (1) steps into:

      $\begin{array}{l}{\beta _j} = \tau ({\beta _{j - 1}} - {t_k}\nabla L({\beta _{j - 1}}))=\\{\rm{(}}\left| {{\beta _{j - 1}} - {{{t}}_k}\nabla L({\beta _{j - 1}})} \right|{\rm{ - }}\alpha {{\rm{)}}_ + }{\rm{sign}}({\beta _{j - 1}} - {t_k}\nabla L({\beta _{j - 1}}))\end{array}$

      When $\alpha =\lambda \times \dfrac{1}{\gamma }$

      $\!(2)\;\;{t_{j + 1}} = \dfrac{{1 + \sqrt {1 + 4{t_j}^2} }}{2}$

      (3) ${y_{j + 1}} = {\beta _j} + \left( {\dfrac{{{t_j} - 1}}{{{t_{j + 1}}}}} \right)({\beta _j} - {\beta _{j - 1}})$

      (4) $j + + $

    • 采用3.0 GHz CPU,16 GB RAM,64位主机,在Matlab2016b Win10环境下对算法进行测试。并与ELM、ELM-huber[13]、ELM-Welsch[14]、ELM-p-Welsch、ELM-PW-l1在人工合成回归数据集和UCI回归数据集上进行对比。其中ELM-Welsch、ELM-p-Welsch采用迭代重加权最小二乘(IRLS)[14]方法。选择均方根误差RMSE作为评价指标:

      其中:${t_i}$${y_i}$分别表示样本的实际标签值和相应的算法预估值;$N$为样本的数量。

    • (1)输入权重矩阵${{{a}}_{N \times L}}$和隐层偏置量${b_{L \times 1}}$在[−1,1]内随机选取,隐层激活函数为${\rm{sigmoid}}$函数,定义为

      (2)正则化参数$\lambda $,隐层节点个数$L$通过交叉验证的方式进行优选,其中$\lambda :\left\{ {{{10}^{ - 10}},{{10}^{ - 9}}, \cdot \cdot \cdot ,{{10}^{10}}} \right\};$ $L:\left\{ {10,20,30, \cdot \cdot \cdot ,150,200,300,500,1\;000} \right\}$

      (3)算法迭代次数${\rm{itermax}}=20$

      (4)参数$c$和阶次$p$也通过交叉验证的方式进行优选,其中${c}:\left\{ {0.1,0.2,0.3, \cdot \cdot \cdot ,2.5,3.0,3.5,5} \right\}$$p:\left\{ {0.1,}\right.$$\left.{0.2,0.3,0.4,0.5, \cdot \cdot \cdot ,3.0} \right\}$

    • 人工数据集由函数$y(i) = \sin {\rm{c}} (x(i)) + v(i)$生成,其中:

      $g(0,{v^2})$表示均值为0、方差为${v^2}$的高斯噪声;$B(i)$模拟脉冲噪声;$A$用来控制添加到数据中的噪声类型。$x(i)$均匀选自[−6,6],生成数据集$\left\{ {\left( {x(i),y(i)} \right)} \right\}_{i = 1}^{200}$。通过交叉验证后,参数设置如下:$L = 100,\lambda = {10^{ - 6}},$$p = 1.5,c = 0.9$

      图6为5种方法在20% 异常值水平下的训练集回归效果图。其中ELM、ELM-huber、ELM-Welsch、ELM-p-Welsch、ELM-PW-l1的测试回归误差分别为0.216 3、0.115 9、0.107 2、0.105 9、0.103 9。由图6可知,与其他4种方法相比,常规的ELM对于异常值更敏感。

      图  6  人工数据集在20%异常值下的训练结果

      Figure 6.  Training results of synthetic datasets with 20% outliers

      表1示出了5种方法在不同异常值水平下的测试结果。由ELM和ELM-PW-l1的测试结果对比可得,随着异常值水平的增加,ELM的RMSE明显上升,而ELM-PW-l1的RMSE变化幅度不大,基本保持稳定,验证了该方法的有效性。

      AlgorithmTraining time/sRMSE ± std
      Outlier=0Outlier=10%Outlier=15%Outlier=20%
      ELM0.0030.107 1±0.006 10.148 7±0.007 50.165 9±0.007 40.220 1±0.009 5
      ELM-huber0.0810.106 6±0.006 00.107 9±0.006 30.110 6±0.007 10.116 9±0.006 4
      ELM-Welsch0.0680.109 6±0.006 00.108 5±0.006 50.109 1±0.005 90.110 1±0.008 6
      ELM-p-Welsch0.0720.107 5±0.007 10.106 9±0.005 80.107 6±0.006 80.107 3±0.007 4
      ELM-PW-l10.0350.107 8±0.004 60.106 6±0.004 90.106 5±0.005 00.107 0±0.005 5

      表 1  5种算法测试结果的RMSE和训练时长

      Table 1.  RMSE and training time of five algorithms under different outlier levels

      通过对比ELM-huber、ELM-welsch、ELM-PW-l1可得,ELM-PW-l1在训练效率上优于ELM-huber和ELM-Welsch,且RMSE也略优于二者,验证了该方法的先进性。

      最后,通过对比ELM-p-Welsch和ELM-PW-l1的测试结果可得,在引入了${l_1}$范数正则项后,ELM-PW-l1的标准差要小于ELM-p-Welsch的标准差,该方法的稳定性得到了提高。

      图7示出了不同参数$p$下算法的收敛结果。可以看出,不同参数$p$下算法的收敛结果不同,且当$p=1.5$时,在上述参数中的收敛效果最好。

      图  7  不同参数$p$下测试集的RMSE

      Figure 7.  RMSE of text dataset under different $p$

    • 为了进一步验证本文方法的性能,通过UCI中的部分回归数据集对ELM、ELM-huber、ELM-Welsch,ELM-p-elsch、ELM-PW-l1方法进行测试。所选数据集的信息如表2所示,随机选取其中的50%作为训练集,剩下的50%作为测试集,并且在训练集标签中添加了10%的异常值。表3为5种算法的参数设置表。

      DatasetFeatureSample
      TrainingTest
      Concrete9515515
      Housing14253253
      Servo58483
      Slump105251
      Wine red12799799
      Yacht6157157
      Airfoil5751751

      表 2  UCI回归数据集信息表

      Table 2.  UCI regression dataset

      DatasetELMELM-WelschELM-p-WelschELM-PW-l1
      LLcLcpLcpλ
      Concrete70702.4702.41.3702.41.30.000 01
      Housing100502.5502.51.1502.51.10.000 1
      Servo40400.9400.91.5400.91.50.000 1
      Slump40201.5201.11.3201.11.30.000 001
      Wine red30400.9400.91.5400.91.50.001
      Yacht50602.5602.51.1602.51.10.000 000 1
      Airfoil50902.5902.21.1902.21.10.000 000 1

      表 3  算法参数设置

      Table 3.  Parameter settings of algorithms

      表4可知,ELM-PW-l1回归误差小于ELM、ELM-huber、ELM-Welsch和ELM-p-Welsch,同时RMSE的标准差相比其他4种算法也更小,说明本文方法在抗异常值方面具有更好的鲁棒性,同时也具有更好的稳定性。

      DatasetRMSE ± std
      ELMELM-huberELM-WelschELM-p-WelschELM-PW-l1
      Concrete0.262 0±0.015 60.225 1±0.009 70.224 4±0.015 70.219 4±0.015 80.218 5±0.012 9
      Housing0.241 1±0.019 60.217 1±0.011 10.212 0±0.014 40.209 8±0.014 60.206 8±0.010 6
      Servo0.374 0±0.043 40.218 2±0.026 60.214 9±0.026 90.210 1±0.025 80.209 3±0.023 8
      Slump0.195 4±0.031 80.156 1±0.024 10.142 8±0.014 00.138 8±0.013 10.138 3±0.011 6
      Wine red0.152 2±0.023 10.130 9±0.015 90.129 9±0.016 60.126 4±0.015 10.126 6±0.013 3
      Yacht0.269 4±0.073 70.133 0±0.028 90.120 9±0.028 60.118 8±0.026 40.116 7±0.023 6
      Airfoil0.234 8±0.007 40.200 6±0.009 00.196 1±0.011 10.194 9±0.010 30.194 3±0.007 6

      表 4  UCI回归数据集测试结果

      Table 4.  Test results of UCI regression datasets

    • 本文针对ELM在鲁棒性上的不足提出了一种$p$阶Welsch损失函数,进而提出了一种基于$p$阶Welsch损失的鲁棒极限学习机。该方法使用$p$阶Welsch损失,降低了异常值数据对算法性能的影响,提升了算法的鲁棒性。在目标函数中引入${l_1}$范数正则项,降低了模型的复杂度,提高了模型的稳定性。在极小化目标函数时采用FISTA算法提高了计算效率。通过对人工数据集和UCI回归数据集的仿真实验验证了本文算法的有效性,结果表明该算法对异常值具有更好的鲁棒性和稳定性,且算法的训练耗时更短。

(7)  表(4) 参考文献 (18) 相关文章 (18)

目录

    /

    返回文章