-
极限学习机(ELM)[1]是一种机器学习算法,一种有监督的单隐层前馈神经网络(SLFN)。它通过随机生成输入权重和偏置的方式将输入映射到高维隐层空间,具有训练速度快、泛化精度高的特点,并且该算法已被证明具有通用逼近能力[2]。因此,ELM已被广泛应用于回归、分类等问题之中,如风电预测[3]、故障检测[4]、醋酸精馏软测量[5]、图像识别[6]等。针对该算法输入权重不能改变的缺点,近些年开发了一些新的技术对ELM算法进行改进[7-8],但都是基于最小二乘法(Least Square,LS)来求解ELM的输出权重矩阵。最小二乘法的目标是学习未知的映射(线性或非线性),使得模型输出和标签值之间的均方误差(Mean Square Error,MSE)最小化。在均方误差损失中所有数据样本所占的权重都相同,因此当数据中有异常值存在时,最小二乘法为了达到极小化残差平方和的目标,必须迁就异常值,这往往会导致参数估计存在较大的偏差[9]。
为了减少数据中的异常值对算法参数估计的影响,Deng等[10]提出了一种基于加权最小二乘法的正则化鲁棒ELM,通过对各个数据样本赋予不同的权重以增加算法的鲁棒性。Zhang等[11]提出了基于
${l_1}$ 范数的损失函数和${l_2}$ 范数正则项的鲁棒ELM,该算法使用增广拉格朗日乘子算法来极小化目标损失函数,有效地减少了异常值的影响。Xing等[12]用最大相关熵准则(Maximum Correntropy Criterion,MCC)代替最小均方误差准则,从而提高了算法泛化性能和鲁棒性。Horata等[13]提出了基于Huber损失函数的鲁棒ELM,并使用迭代重加权最小二乘(IRLS)算法来求解Huber损失函数的优化问题,但是该损失函数中并没有引入避免参数过拟合的机制。依据M估计理论,Chen等[14]提出了一个统一的鲁棒ELM框架,分别利用${l_1}$ 范数正则项和${l_2}$ 范数正则项来避免过拟合,利用4种损失函数(${l_1}$ 范数、Huber、Bisquare、Welsch)提高ELM网络的鲁棒性,并采用IRLS算法来求解,但同时指出对于${l_1}$ 范数正则项,IRLS算法并不是最佳选择,FISTA[15]算法在解决${l_1}$ 范数正则项问题时比IRLS算法更高效。Welsch估计方法是稳健估计(Robust Estimation)M估计中的一种方法。Welsch损失是基于Welsch估计方法的损失函数。当数据误差呈正态分布时,它与均方误差损失效果相当,但当误差呈非正态,如误差是由异常值引起时,Welsch损失比均方误差损失更具鲁棒性[14]。而且基于二阶统计度量的均方误差损失函数对数据中的异常值敏感,容易受到异常值影响,并不是鲁棒学习中的好方法[16-18]。
为了使算法兼具极限学习机的高效性和Welsch估计对异常值的鲁棒性,本文提出了一种基于
$p$ 阶Welsch损失的鲁棒极限学习机算法。首先,提出了基于MPE(Mean p-Power Error)[17]改进的$p$ 阶Welsch损失函数,并用该损失函数替代ELM目标函数中的均方误差损失;其次,在目标函数中引入${l_1}$ 范数正则项来获得稀疏的ELM网络模型,防止模型过拟合,提高模型的稳定性,并采用快速迭代阈值收缩算法(FISTA)极小化改进的目标函数。在人工数据集和典型的UCI数据集上的仿真实验结果表明,本文算法在保证ELM网络稳定性的同时提高了模型的鲁棒性,并且缩短了训练时间。 -
ELM模型结构如图1所示。
假设有
${N}$ 个任意样本$\left\{ {{{{x}}_i},{{{t}}_i}} \right\}_{i = 1}^N$ ,其中${{{x}}_i} =\left[{x_{i1}},\right.$ $\left.{x_{i2}},...,{x_{in}}\right] \in {{\bf{R}}^n}$ ,${{{t}}_i} = [{t_{i1}},{t_{i2}},...,{t_{im}}] \in {{\bf{R}}^m}$ ,隐层关于输入${{{x}}_i}$ 的输出为$h({{{x}}_i}) = [{h_1}({x_i}),{h_2}({x_i}),...,{h_L}({x_i})]$ ,其中${h_j}({x_i})$ 是隐层第$j$ 个节点的输出,其具体表达式为对于数据集
$\left\{ {{{{x}}_i},{{{x}}_i}} \right\}_{i = 1}^N$ ,ELM的隐层输出为${{T}}$ 是数据集标签:${{\beta}} \in {{\bf{R}}^{L \times m}}$ 是输出权重矩阵:输出节点对输入
${{{x}}_i}$ 的预测结果如下:对于ELM算法,其输入权重矩阵
${{a}}$ 和偏置量${b}$ 是随机确定的,确定之后即不再改变。因此,网络训练的目标函数为其中
${\left\| \cdot \right\|_2}$ 为${l_2}$ 范数。采用最小二乘法求解式(6)中的目标函数,得到隐层的输出矩阵:
其中
${{H}}^{†} $ 是隐层输出矩阵${{H}}$ 的Moore-Penrose广义逆矩阵:为了进一步提高ELM的稳定性以及泛化能力,文献[2]提出了正则化ELM(RELM),网络的目标函数如下:
其中:
$\left\| {{\beta}} \right\|_2^2=\sum\limits_{i = 1}^L {\beta _i^2} $ 表示具有${l_2}$ 范数的正则项;${\lambda }$ 为正则化系数,求导可得: -
ELM算法中的目标函数是均方误差(MSE)损失,该损失项对每个样本数据给予了相同的权重,这使得异常值对误差平方和的影响比其他数据大,导致参数估计对于异常值相当敏感。如图2所示,均方误差损失相比Welsch损失对异常数据更敏感。为此,本文提出了一种基于MPE改进的
$p$ 阶Welsch损失作为损失函数来改进算法的鲁棒性。 -
Welsch损失表示如下[14]:
文献[16-18]提出将误差的
$p$ 阶次函数作为损失函数,并指出适当的$p$ 值可以更好地处理异常值。本文基于MPE对Welsch损失函数进行改进,提出了$p$ 阶Welsch损失函数,如式(12)所示。每个样本的
$p$ 阶Welsch损失可以表示为其中:
${e_i}=\dfrac{{{t_i} - {y_i}}}{s}$ ,${y_i}$ 为对应样本${x_i}$ 模型的响应值,${t_i}$ 为样本的标签值,${t_i} - {y_i}$ 代表残差,$s = \dfrac{{{\rm{med}}(\left| {\rm{err}} \right|)}}{{0.674\;5}}$ ,med(|err|)代表所有残差绝对值的中位数。$p$ 阶Welsch损失的梯度函数如下:图3为
$p$ 阶Welsch损失函数、MSE损失函数及其梯度函数比较图。从图中可以看出,$p$ 阶Welsch损失中每个样本的误差控制在了0~1之内,且其梯度函数在误差超过一定值之后会减小,并不会像平方损失项的梯度函数一样随着误差的增大而增大,从而降低了异常值引起的大误差项对于参数估计的影响力。对于不同的
$p$ 和$c$ ,$p$ 阶Welsch损失函数的曲线如图4、5所示。分析图4中的变化趋势可以看出,对于任意$p$ 值,$p$ 阶welsch损失函数都会随着误差的增大而增大,最终会在误差达到一定阈值时趋近于1.0,之后即使误差再增加,$p$ 阶Welsch损失也只是再向1.0靠近,变化甚微,从而降低了异常值所带来的大误差对模型训练的影响程度。并且,随着$p$ 值的减小,$p$ 阶Welsch损失函数的梯度函数的极值点会随着$p$ 值的减小而前移,即$p$ 阶Welsch损失函数关于误差变化最敏感的部分相对前移,因此,当$p$ 值过大时,$p$ 阶Welsch函数对于异常值的敏感程度会变大。图5给出了
$p$ 阶Welsch损失函数在不同$c$ 值下的变化趋势,从中可以看出,随着c值的增大,$p$ 阶Welsch损失趋近于1.0时对应的误差值也会相应地增大。因此可以通过调整$p$ 、$c$ 来降低$p$ 阶Welsch损失函数对于异常值的敏感程度。为了得到对异常值更具鲁棒性的ELM网络模型,将
$p$ 阶Welsch损失函数代入到式(6)中,代替均方误差损失,得到目标函数如式(15)所示: -
为了控制ELM网络模型的复杂度,提高模型的稳定性,本文在目标函数中引入了正则项。最简单的正则化形式之一是
${l_2}$ 范数,在目标函数中加入它可以促使输出权重矩阵${{\beta}} $ 中的值向0逼近但不为0。另一种常用的正则化是${l_1}$ 范数,也被称为lasso,当正则化因子$\lambda $ 足够小时,该范数的加入可以将输出权重${{\beta}} $ 中一些值训练为0,从而得到稀疏模型[14]。本文在目标函数中引入了${l_1}$ 范数正则项,将式(16)改写为
其中:
$L({{\beta}})=L({{H}}{{\beta}} ,{{T}})$ ;$q({{\beta}})=\lambda {\left\| \beta \right\|_{l_1}}$ 。损失函数$L({{\beta}} )$ 的梯度可以表示为其中:
${\lambda '}=\dfrac{p}{{s \cdot {c^2}N}}$ ;${{\Lambda }}$ 是对角线矩阵,并且本文采用快速迭代阈值收缩算法(FISTA)对目标函数(式(16))求极小值。优化算法计算步骤如下:
Algorithm 1 Robust ELM based on p-power Welsch loss and l1 regularization: ELM-PW-l1
Input:
${\left\{{{{x}}_i},{{{t}}_i}\right\}}_{i = 1}^N{{\beta}}$ ,$L$ ,$\lambda $ ,$p$ ,$c$ ,${\rm{itermax}}$ Output:
$\,{{\beta}} $ Step 1 Randomly generate input weights matrix
${{a}}$ , and bias weight${b}$ Step 2 Calculate the output weight matrix
${{H}}$ Step 3 Calculate Lipschitz constant
$y = \max $ $ ({\rm{eig}}({{{H}}^{\rm{T}}}{{H}}))$ and the gradient of loss function$\nabla L$ Step 4 Initialize
${y_1} = {\beta _0} \in {R^n}$ ,${t_1} = 1$ ,$j = 1$ Step 5 Repeat when j < itermax
(1)
$\,{\beta _j} \!=\! \mathop {\arg \min }\limits_{{\beta}} \left\{ {\dfrac{\gamma }{2}{{\left\| {{y_j} \!-\! ({{\beta}_{j - 1}}\! - \!\dfrac{1}{\gamma }\nabla L({\beta _{j - 1}}))} \right\|}^2} + q({y_j})} \right\}$ (1) steps into:
$\begin{array}{l}{\beta _j} = \tau ({\beta _{j - 1}} - {t_k}\nabla L({\beta _{j - 1}}))=\\{\rm{(}}\left| {{\beta _{j - 1}} - {{{t}}_k}\nabla L({\beta _{j - 1}})} \right|{\rm{ - }}\alpha {{\rm{)}}_ + }{\rm{sign}}({\beta _{j - 1}} - {t_k}\nabla L({\beta _{j - 1}}))\end{array}$ When
$\alpha =\lambda \times \dfrac{1}{\gamma }$ $\!(2)\;\;{t_{j + 1}} = \dfrac{{1 + \sqrt {1 + 4{t_j}^2} }}{2}$ (3)
${y_{j + 1}} = {\beta _j} + \left( {\dfrac{{{t_j} - 1}}{{{t_{j + 1}}}}} \right)({\beta _j} - {\beta _{j - 1}})$ (4)
$j + + $ -
采用3.0 GHz CPU,16 GB RAM,64位主机,在Matlab2016b Win10环境下对算法进行测试。并与ELM、ELM-huber[13]、ELM-Welsch[14]、ELM-p-Welsch、ELM-PW-l1在人工合成回归数据集和UCI回归数据集上进行对比。其中ELM-Welsch、ELM-p-Welsch采用迭代重加权最小二乘(IRLS)[14]方法。选择均方根误差RMSE作为评价指标:
其中:
${t_i}$ 和${y_i}$ 分别表示样本的实际标签值和相应的算法预估值;$N$ 为样本的数量。 -
(1)输入权重矩阵
${{{a}}_{N \times L}}$ 和隐层偏置量${b_{L \times 1}}$ 在[−1,1]内随机选取,隐层激活函数为${\rm{sigmoid}}$ 函数,定义为(2)正则化参数
$\lambda $ ,隐层节点个数$L$ 通过交叉验证的方式进行优选,其中$\lambda :\left\{ {{{10}^{ - 10}},{{10}^{ - 9}}, \cdot \cdot \cdot ,{{10}^{10}}} \right\};$ $L:\left\{ {10,20,30, \cdot \cdot \cdot ,150,200,300,500,1\;000} \right\}$ 。(3)算法迭代次数
${\rm{itermax}}=20$ (4)参数
$c$ 和阶次$p$ 也通过交叉验证的方式进行优选,其中${c}:\left\{ {0.1,0.2,0.3, \cdot \cdot \cdot ,2.5,3.0,3.5,5} \right\}$ ;$p:\left\{ {0.1,}\right.$ $\left.{0.2,0.3,0.4,0.5, \cdot \cdot \cdot ,3.0} \right\}$ 。 -
人工数据集由函数
$y(i) = \sin {\rm{c}} (x(i)) + v(i)$ 生成,其中:$g(0,{v^2})$ 表示均值为0、方差为${v^2}$ 的高斯噪声;$B(i)$ 模拟脉冲噪声;$A$ 用来控制添加到数据中的噪声类型。$x(i)$ 均匀选自[−6,6],生成数据集$\left\{ {\left( {x(i),y(i)} \right)} \right\}_{i = 1}^{200}$ 。通过交叉验证后,参数设置如下:$L = 100,\lambda = {10^{ - 6}},$ $p = 1.5,c = 0.9$ 。图6为5种方法在20% 异常值水平下的训练集回归效果图。其中ELM、ELM-huber、ELM-Welsch、ELM-p-Welsch、ELM-PW-l1的测试回归误差分别为0.216 3、0.115 9、0.107 2、0.105 9、0.103 9。由图6可知,与其他4种方法相比,常规的ELM对于异常值更敏感。
表1示出了5种方法在不同异常值水平下的测试结果。由ELM和ELM-PW-l1的测试结果对比可得,随着异常值水平的增加,ELM的RMSE明显上升,而ELM-PW-l1的RMSE变化幅度不大,基本保持稳定,验证了该方法的有效性。
Algorithm Training time/s RMSE ± std Outlier=0 Outlier=10% Outlier=15% Outlier=20% ELM 0.003 0.107 1±0.006 1 0.148 7±0.007 5 0.165 9±0.007 4 0.220 1±0.009 5 ELM-huber 0.081 0.106 6±0.006 0 0.107 9±0.006 3 0.110 6±0.007 1 0.116 9±0.006 4 ELM-Welsch 0.068 0.109 6±0.006 0 0.108 5±0.006 5 0.109 1±0.005 9 0.110 1±0.008 6 ELM-p-Welsch 0.072 0.107 5±0.007 1 0.106 9±0.005 8 0.107 6±0.006 8 0.107 3±0.007 4 ELM-PW-l1 0.035 0.107 8±0.004 6 0.106 6±0.004 9 0.106 5±0.005 0 0.107 0±0.005 5 表 1 5种算法测试结果的RMSE和训练时长
Table 1. RMSE and training time of five algorithms under different outlier levels
通过对比ELM-huber、ELM-welsch、ELM-PW-l1可得,ELM-PW-l1在训练效率上优于ELM-huber和ELM-Welsch,且RMSE也略优于二者,验证了该方法的先进性。
最后,通过对比ELM-p-Welsch和ELM-PW-l1的测试结果可得,在引入了
${l_1}$ 范数正则项后,ELM-PW-l1的标准差要小于ELM-p-Welsch的标准差,该方法的稳定性得到了提高。图7示出了不同参数
$p$ 下算法的收敛结果。可以看出,不同参数$p$ 下算法的收敛结果不同,且当$p=1.5$ 时,在上述参数中的收敛效果最好。 -
为了进一步验证本文方法的性能,通过UCI中的部分回归数据集对ELM、ELM-huber、ELM-Welsch,ELM-p-elsch、ELM-PW-l1方法进行测试。所选数据集的信息如表2所示,随机选取其中的50%作为训练集,剩下的50%作为测试集,并且在训练集标签中添加了10%的异常值。表3为5种算法的参数设置表。
Dataset Feature Sample Training Test Concrete 9 515 515 Housing 14 253 253 Servo 5 84 83 Slump 10 52 51 Wine red 12 799 799 Yacht 6 157 157 Airfoil 5 751 751 表 2 UCI回归数据集信息表
Table 2. UCI regression dataset
Dataset ELM ELM-Welsch ELM-p-Welsch ELM-PW-l1 L L c L c p L c p λ Concrete 70 70 2.4 70 2.4 1.3 70 2.4 1.3 0.000 01 Housing 100 50 2.5 50 2.5 1.1 50 2.5 1.1 0.000 1 Servo 40 40 0.9 40 0.9 1.5 40 0.9 1.5 0.000 1 Slump 40 20 1.5 20 1.1 1.3 20 1.1 1.3 0.000 001 Wine red 30 40 0.9 40 0.9 1.5 40 0.9 1.5 0.001 Yacht 50 60 2.5 60 2.5 1.1 60 2.5 1.1 0.000 000 1 Airfoil 50 90 2.5 90 2.2 1.1 90 2.2 1.1 0.000 000 1 表 3 算法参数设置
Table 3. Parameter settings of algorithms
由表4可知,ELM-PW-l1回归误差小于ELM、ELM-huber、ELM-Welsch和ELM-p-Welsch,同时RMSE的标准差相比其他4种算法也更小,说明本文方法在抗异常值方面具有更好的鲁棒性,同时也具有更好的稳定性。
Dataset RMSE ± std ELM ELM-huber ELM-Welsch ELM-p-Welsch ELM-PW-l1 Concrete 0.262 0±0.015 6 0.225 1±0.009 7 0.224 4±0.015 7 0.219 4±0.015 8 0.218 5±0.012 9 Housing 0.241 1±0.019 6 0.217 1±0.011 1 0.212 0±0.014 4 0.209 8±0.014 6 0.206 8±0.010 6 Servo 0.374 0±0.043 4 0.218 2±0.026 6 0.214 9±0.026 9 0.210 1±0.025 8 0.209 3±0.023 8 Slump 0.195 4±0.031 8 0.156 1±0.024 1 0.142 8±0.014 0 0.138 8±0.013 1 0.138 3±0.011 6 Wine red 0.152 2±0.023 1 0.130 9±0.015 9 0.129 9±0.016 6 0.126 4±0.015 1 0.126 6±0.013 3 Yacht 0.269 4±0.073 7 0.133 0±0.028 9 0.120 9±0.028 6 0.118 8±0.026 4 0.116 7±0.023 6 Airfoil 0.234 8±0.007 4 0.200 6±0.009 0 0.196 1±0.011 1 0.194 9±0.010 3 0.194 3±0.007 6 表 4 UCI回归数据集测试结果
Table 4. Test results of UCI regression datasets
-
本文针对ELM在鲁棒性上的不足提出了一种
$p$ 阶Welsch损失函数,进而提出了一种基于$p$ 阶Welsch损失的鲁棒极限学习机。该方法使用$p$ 阶Welsch损失,降低了异常值数据对算法性能的影响,提升了算法的鲁棒性。在目标函数中引入${l_1}$ 范数正则项,降低了模型的复杂度,提高了模型的稳定性。在极小化目标函数时采用FISTA算法提高了计算效率。通过对人工数据集和UCI回归数据集的仿真实验验证了本文算法的有效性,结果表明该算法对异常值具有更好的鲁棒性和稳定性,且算法的训练耗时更短。
基于p阶Welsch损失的鲁棒极限学习机
Robust Extreme Learning Machine Based on p-Power Welsch Loss
-
摘要: 针对极限学习机(ELM)异常值敏感的问题,提出了一种基于p阶Welsch损失的鲁棒极限学习机。该方法的特点体现在以下3个方面:使用p阶Welsch损失代替常规ELM的均方误差损失,提高算法的鲁棒性;在目标函数中引入l1范数正则项,降低ELM网络模型的复杂度,增强模型的稳定性;采用快速迭代阈值收缩算法(FISTA)极小化目标函数,提升计算效率。对人工合成数据集和部分UCI回归数据集进行仿真,实验结果表明本文方法在鲁棒性、稳定性和训练时间上都具有很好的性能。
-
关键词:
- p阶Welsch损失 /
- 极限学习机 /
- 鲁棒性 /
- FISTA
Abstract: Aiming at the problem that the conventional extreme learning machine (ELM) is sensitive to outliers, a robust extreme learning machine based on p-power Welsch loss is presented. The highlights of this proposed method are reflected in the following three aspects: Firstly the mean square error loss of the conventional ELM is replaced by the p-power Welsch loss, which improves the robustness of the algorithm. Secondly, l1 norm regularization is introduced into the objective function to reduce the complexity and improve the stability of the ELM network model. Finally a fast iterative shrinkage-thresholding algorithm (FISTA) is adopted to minimize the objective function, which improves the computational efficiency of the method. Performance comparisons of the method are presented using synthetic data and UCI datasets. The experimental results show that the proposed algorithm produces better robustness, better stability and lower training time.-
Key words:
- p-power Welsch loss /
- ELM /
- robustness /
- FISTA
-
表 1 5种算法测试结果的RMSE和训练时长
Table 1. RMSE and training time of five algorithms under different outlier levels
Algorithm Training time/s RMSE ± std Outlier=0 Outlier=10% Outlier=15% Outlier=20% ELM 0.003 0.107 1±0.006 1 0.148 7±0.007 5 0.165 9±0.007 4 0.220 1±0.009 5 ELM-huber 0.081 0.106 6±0.006 0 0.107 9±0.006 3 0.110 6±0.007 1 0.116 9±0.006 4 ELM-Welsch 0.068 0.109 6±0.006 0 0.108 5±0.006 5 0.109 1±0.005 9 0.110 1±0.008 6 ELM-p-Welsch 0.072 0.107 5±0.007 1 0.106 9±0.005 8 0.107 6±0.006 8 0.107 3±0.007 4 ELM-PW-l1 0.035 0.107 8±0.004 6 0.106 6±0.004 9 0.106 5±0.005 0 0.107 0±0.005 5 表 2 UCI回归数据集信息表
Table 2. UCI regression dataset
Dataset Feature Sample Training Test Concrete 9 515 515 Housing 14 253 253 Servo 5 84 83 Slump 10 52 51 Wine red 12 799 799 Yacht 6 157 157 Airfoil 5 751 751 表 3 算法参数设置
Table 3. Parameter settings of algorithms
Dataset ELM ELM-Welsch ELM-p-Welsch ELM-PW-l1 L L c L c p L c p λ Concrete 70 70 2.4 70 2.4 1.3 70 2.4 1.3 0.000 01 Housing 100 50 2.5 50 2.5 1.1 50 2.5 1.1 0.000 1 Servo 40 40 0.9 40 0.9 1.5 40 0.9 1.5 0.000 1 Slump 40 20 1.5 20 1.1 1.3 20 1.1 1.3 0.000 001 Wine red 30 40 0.9 40 0.9 1.5 40 0.9 1.5 0.001 Yacht 50 60 2.5 60 2.5 1.1 60 2.5 1.1 0.000 000 1 Airfoil 50 90 2.5 90 2.2 1.1 90 2.2 1.1 0.000 000 1 表 4 UCI回归数据集测试结果
Table 4. Test results of UCI regression datasets
Dataset RMSE ± std ELM ELM-huber ELM-Welsch ELM-p-Welsch ELM-PW-l1 Concrete 0.262 0±0.015 6 0.225 1±0.009 7 0.224 4±0.015 7 0.219 4±0.015 8 0.218 5±0.012 9 Housing 0.241 1±0.019 6 0.217 1±0.011 1 0.212 0±0.014 4 0.209 8±0.014 6 0.206 8±0.010 6 Servo 0.374 0±0.043 4 0.218 2±0.026 6 0.214 9±0.026 9 0.210 1±0.025 8 0.209 3±0.023 8 Slump 0.195 4±0.031 8 0.156 1±0.024 1 0.142 8±0.014 0 0.138 8±0.013 1 0.138 3±0.011 6 Wine red 0.152 2±0.023 1 0.130 9±0.015 9 0.129 9±0.016 6 0.126 4±0.015 1 0.126 6±0.013 3 Yacht 0.269 4±0.073 7 0.133 0±0.028 9 0.120 9±0.028 6 0.118 8±0.026 4 0.116 7±0.023 6 Airfoil 0.234 8±0.007 4 0.200 6±0.009 0 0.196 1±0.011 1 0.194 9±0.010 3 0.194 3±0.007 6 -
[1] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892. doi: 10.1109/TNN.2006.875977 [2] HUANG G, HUANG G B, SONG S J. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32-48. doi: 10.1016/j.neunet.2014.10.001 [3] WAN C, XU Z, PINSON P, et al. Probabilistic forecasting of wind power generation using extreme learning machine[J]. IEEE Transactions on Power Systems, 2014, 29(3): 1033-1044. doi: 10.1109/TPWRS.2013.2287871 [4] 罗家祥, 罗丹, 胡跃明. 带权重变化和决策融合的ELM在线故障检测[J]. 控制与决策, 2018, 33(6): 1033-1040.
[5] 徐凤, 刘爱伦. 基于小波核函数极限学习机的模型预测控制模拟[J]. 华东理工大学学报(自然科学版), 2015, 41(2): 185-191. doi: 10.3969/j.issn.1006-3080.2015.02.007
[6] STEVICA C, MILOŠ B S, SAŠA V N. Hierarchical ELM ensembles for visual descriptor fusion[J]. Information Fusion, 2018, 41: 16-24. doi: 10.1016/j.inffus.2017.07.003 [7] KASUN L L C, ZHOU H, HUANG G B, et al. Representational learning with extreme learning machine for big data[J]. IEEE Intelligent Systems, 2013, 28(6): 31-34. [8] TANG J, DENG C, HUANG G B. Extreme learning machine for multilayer perceptron[J]. Extreme Learning Machine for Multilayer Perceptron, 2016, 27(4): 809-821. [9] 胡义函, 张小刚, 陈华, 等. 一种基于鲁棒估计的极限学习机方法[J]. 计算机应用研究, 2012, 9(8): 2926-2930. doi: 10.3969/j.issn.1001-3695.2012.08.033
[10] DENG W, ZHENG Q, CHEN L. Regularized extreme learning machine[C]//IEEE Symposium on Computational Intelligence and Data Mining, CIDM’09. USA: IEEE, 2009: 389-395. [11] ZHANG K, LUO M. Outlier-robust extreme learning machine for regression problems[J]. Neurocomputing, 2015, 151: 1519-1527. doi: 10.1016/j.neucom.2014.09.022 [12] XING H J, WANG X M. 2013 Training extreme learning machine via regularized correntropy criterion[J]. Neural Computing and Applications, 2013, 23(7): 1977-1986. [13] HORATA P, CHIEWCHANWATTANA S, SUNAT K. Robust extreme learning machine[J]. Neurocomputing, 2013, 102: 31-44. doi: 10.1016/j.neucom.2011.12.045 [14] CHEN K, LYV Q, LU Y. Robust regularized extreme learning machine for regression using iteratively reweighted least squares[J]. Neurocomputing, 2017, 230: 345-358. doi: 10.1016/j.neucom.2016.12.029 [15] BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J]. SIAM Journal Imaging Sciences, 2009, 2(1): 183-202. doi: 10.1137/080716542 [16] CHEN B D, XING L, WANG X, et al. Robust learning with kernel mean p-power error loss[J]. IEEE Transactions on Cybernetics, 2018, 48(7): 2101-2113. doi: 10.1109/TCYB.2017.2727278 [17] PEI S C, TSENG C C. Least mean p-power error criterion for adaptive FIR filter[J]. IEEE Journal on Selected Areas in Communications, 1994, 12(9): 1540-1547. doi: 10.1109/49.339922 [18] CHEN B, XING Lei, WU Z Z, et al. Smoothed least mean p-power error criterion for adaptive filtering[J]. Digital Signal Processing, 2015, 40: 154-163. doi: 10.1016/j.dsp.2015.02.009 -