高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于Tri-training MPLS的半监督软测量模型

    作者简介: 李 东(1994-),男,河南尉氏人,博士生,主要研究方向为软测量。E-mail:lddscut@163.com;
    通讯作者: 黄道平, audhuang@scut.edu.cn
  • 中图分类号: TP 277

Semi-supervised Soft Sensor Model Based on Tri-training MPLS

    Corresponding author: Daoping HUANG, audhuang@scut.edu.cn
  • CLC number: TP 277

  • 摘要: 随着污水处理过程日趋复杂,易测量变量和难测量变量的比例严重失衡,传统的监督性软测量建模方法已经无法满足需求。针对这一问题,提出了一种新的半监督学习的软测量模型——Tri-training MPLS模型。将标记数据均分为相互独立的3个部分,并由这3个相互独立的标记样本子集选择置信度高的未标记样本训练模型,提高模型的预测能力。此外,将单输出软测量模型升级为多输出模型,对多个输出的变量直接建模预测。最后,通过污水处理仿真模型BSM1(Benchmark Simulation Model-1)平台对本文模型进行验证。结果表明,该软测量模型不仅具有较好的多输出预测能力,且对单个预测结果也有令人满意的预测表现。
  • 图 1  Co-training MPLS(a)和Tri-training MPLS(b)模型的流程图

    Figure 1.  Flow chart of co-training MPLS (a) and tri-training MPLS (b) models

    图 2  BSM1污水处理厂示意图

    Figure 2.  Schematic diagram of BSM1

    图 3  两种模型的预测曲线和D-values

    Figure 3.  Prediction curves and D-values of two models

    图 4  不同标记样本率下的RMSE变化曲线

    Figure 4.  RMSE curves under different labeled data rates

    表 1  BSM1平台中的变量

    Table 1.  Variables of the BSM1

    NoVariablesCommentsNoVariablesComments
    1SS-1Readily biodegradable substrate-111SO-2Oxygen-2
    2SS-inReadily biodegradable substrate influent12SO-5Oxygen-5
    3SNH-1NH4++NH3 nitrogen-113Q-trFlow rate internal recycling
    4SNH-2NH4++NH3 nitrogen-214Q-inFlow rate influent
    5SNH-3NH4++NH3 nitrogen-315COD-inChemical oxygen demand for influent
    6SNH-inNH4++NH3 nitrogen influent16SS-EReadily biodegradable substrate effluent
    7SNO-1Nitrate and nitrite nitrogen-117SNH-ENH4++NH3 nitrogen effluent
    8SNO-2Nitrate and nitrite nitrogen-218SNO-ENitrate and nitrite nitrogen effluent
    9SNO-3Nitrate and nitrite nitrogen-319COD-EChemical oxygen demand for effluent
    10SO-1Oxygen-120BOD5-EFive-day biological oxygen demand effluent
    下载: 导出CSV

    表 2  输出变量的RSME值

    Table 2.  RMSE values of output variables

    LabeleddataCo-training MPLSTri-training MPLS
    SS-ESNH-ESNO-ECOD-EBOD5-ESS-ESNH-ESNO-ECOD-EBOD5-E
    1 day0.2020.469.61257.120.180.1448.555.3464.370.03
    2 day0.065.401.7616.420.070.067.151.7415.560.07
    3 day0.065.961.7215.230.110.074.391.9522.400.12
    4 day0.105.541.7010.500.080.085.691.7211.020.07
    5 day0.105.171.796.100.050.084.961.646.790.05
    6 day0.063.191.183.370.030.063.021.193.400.03
    7 day0.032.021.412.490.030.032.011.432.500.03
    下载: 导出CSV

    表 3  不同的标记样本率下的时间消耗

    Table 3.  Time consumption under different labeled data rate

    ModelTime consumption
    1 day2 day3 day4 day5 day6 day7 day
    Co-training MPLS22.12434.18645.78260.01571.68981.47393.159
    Tri-training MPLS25.65739.24949.56161.95472.01984.55496.233
    下载: 导出CSV
  • [1] 黄道平, 刘乙奇, 李艳. 软测量在污水处理过程中的研究与应用[J]. 化工学报, 2011, 62(1): 1-9.
    [2] 杨逸俊. 基于WOA-GRU的精馏塔丙烷浓度软测量建模[C]//第30届中国过程控制会议(CPCC 2019). 云南昆明: 中国自动化学会过程控制专业委员会, 2019: 2-16.
    [3] 蒋昕祎, 李绍军, 金宇辉. 基于慢特征重构与改进DPLS的软测量建模[J]. 华东理工大学学报(自然科学版), 2018, 44(4): 535-542.
    [4] LIU Y Q, LIU B, ZHAO X J, et al. Development of RVM-based multiple-output soft sensors with serial and parallel stacking strategies[J]. IEEE Transactions on Control Systems Technology, 2018, 27(6): 2727-2734.
    [5] LIU Y, LIU B, Zhao X, et al. Development of RVM-based multiple-output soft sensors with serial and parallel stacking strategies[J]. IEEE Transactions on Control Systems Technology, 2019, 27(6): 2727-2734. doi: 10.1109/TCST.2018.2871934
    [6] XIAO H, BAI B, LI X, et al. Interval multiple-output soft sensors development with capacity control for wastewater treatment applications: A comparative study[J]. Chemometrics and Intelligent Laboratory Systems, 2019, 184: 82-93. doi: 10.1016/j.chemolab.2018.11.007
    [7] 王忠建. 基于软测量法的带钢酸洗液组分浓度在线检测研究[D]. 上海: 华东理工大学, 2016.
    [8] WANG X, LIU H. A knowledge-and data-driven soft sensor based on deep learning for predicting the deformation of an air preheater rotor[J]. IEEE Access, 2019, 7: 159651-159660. doi: 10.1109/ACCESS.2019.2950661
    [9] GOPAKUMAR V, TIWARI S, RAHMAN I. A deep learning based data driven soft sensor for bioprocesses[J]. Biochemical Engineering Journal, 2018, 136: 28-39. doi: 10.1016/j.bej.2018.04.015
    [10] SHAHSHAHANI B M, LANDGREBE D. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J]. IEEE Transactions on Geoscience & Remoto Sensing, 1994, 32(5): 1087-1095.
    [11] CHI S, LI X, TIAN Y, et al. Semi-supervised learning to improve generalizability of risk prediction models[J]. Journal of Biomedical Informatics, 2019, 92: 103-117.
    [12] ZHU J, GE Z, SONG Z. Quantum statistic based semi-supervised learning approach for industrial soft sensor development[J]. Control Engineering Practice, 2018, 74: 144-152. doi: 10.1016/j.conengprac.2018.03.001
    [13] SHAO W, GE Z, SONG Z, et al. Nonlinear industrial soft sensor development based on semi-supervised probabilistic mixture of extreme learning machines[J]. Control Engineering Practice, 2019, 91: 98-104.
    [14] BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the Eleventh Annual Conference on Computational Learning Theory. 1998: 92-100.
    [15] 程剑, 宋淑群, 张凌波, 等. 基于PLS-混合Pi-Sigma模糊神经网络模型的甲醇合成装置变换工序CO变换率软测量建模[J]. 华东理工大学学报(自然科学版), 2015, 41(1): 66-71. doi: 10.3969/j.issn.1006-3080.2015.01.011
    [16] LIU Y, PAN Y, HUANG D. Development of a novel adaptive soft-sensor using variational Bayesian PLS with accounting for online identification of key variables[J]. Industrial & Engineering Chemistry Research, 2015, 54(1): 338-350.
    [17] BAO L, YUAN X, GE Z. Co-training partial least squares model for semi-supervised soft sensor development[J]. Chemometrics and Intelligent Laboratory Systems, 2015, 147: 75-85. doi: 10.1016/j.chemolab.2015.08.002
    [18] FERREIRA V, SOUZA F A A, ARAÚJO R. Semi-supervised soft sensor and feature ranking based on co-regularised least squares regression applied to a polymerization batch process[C]//2017 IEEE 15th International Conference on Industrial Informatics (INDIN). USA: IEEE, 2017: 257-262.
    [19] ZHOU Z H, LI M. Semisupervised regression with cotraining-style algorithms[J]. IEEE Transactions on Knowledge & Data Engineering, 2007, 19(11): 1479-1493.
    [20] 吴菁, 刘乙奇, 刘坚, 等. 基于动态多核相关向量机的软测量建模研究[J]. 化工学报, 2019, 70(4): 1472-1484.
    [21] 刘大伟, 沈文浩. 废水处理仿真基准模型BSM1简介[J]. 广州环境科学, 2007, 22(1): 11-15.
  • [1] 王宁曹萃文 . 基于XGBoost模型的炼油厂氢气网络动态多输出预测模型. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181104001
    [2] 王德勋虞慧群范贵生 . 基于深度学习的面部动作单元识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190107003
    [3] 朱敏陈杭宋兴福于建国 . 软钾镁矾反应转化制备K2SO4的母液回收利用研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190324001
    [4] 赖兆林冯翔虞慧群 . 基于逆向学习行为粒子群算法的云计算大规模任务调度. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190218001
    [5] 许毅冯翔虞慧群 . 基于强化学习和角度惩罚距离的冰晶连续优化算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20191125003
    [6] 钱文秀常青向辉康文斌 . 基于深度监督显著目标检测的草莓图像分割. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181205004
    [7] 康萌萌杨浩谷小婧顾幸生 . 基于融合路径监督的多波段图像语义分割. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20191216002
    [8] 陈帅庞瑞淇刘思奕洪晨雨马绍花杲云田佳 . 卟啉半遥爪聚合物的制备及其在光动力疗法中的应用探讨. 华东理工大学学报(自然科学版), doi: 10.14135/j-cnki.1006-3080.20190309001
    [9] 李岁王元华 . 油田水套加热炉高温空气燃烧瞬态模拟及最小换向时间. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180723008
    [10] 金志超高大启朱昌明王喆 . 基于权重的多视角全局和局部结构风险最小化分类器. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180704001
    [11] 张雪芹魏一凡 . 基于深度学习的驾驶场景关键目标检测与提取. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181023002
    [12] 张习习顾幸生 . 基于集成学习概率神经网络的电机轴承故障诊断. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206001
    [13] 陈剑挺叶贞成程辉 . 基于p阶Welsch损失的鲁棒极限学习机. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181209001
    [14] 马振伟何高奇袁玉波 . 基于小样本深度学习的通风柜橱窗状态识别方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190412004
    [15] 王瑞许妍霞宋兴福吴非克于建国 . 降膜结晶分离提纯对二甲苯. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180424003
    [16] 董斯堃袁荞龙黄发荣 . 芳基二炔丙基醚改性含硅芳炔树脂的性能. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180416005
    [17] 程雅文豆伟涛陈国荣 . 二硫化钼复合材料的构建与对Aβ的灵敏检测. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180720001
    [18] 刘静丁艳玲刘小云谭正庄启昕 . 三亲性二嵌段共聚物共混体系的自组装行为. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190220001
    [19] 钟郭程陈涛赵黎明邱勇俊徐梦帆 . 立构二嵌段聚乳酸微纳米纤维的制备与结晶性能. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190404002
    [20] 常成戴一铭段先健王跃林胡彦杰李春忠 . 高温火焰处理纳米二氧化硅及其对硅橡胶的补强性能. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190717005
  • 加载中
图(4)表(3)
计量
  • 文章访问数:  298
  • HTML全文浏览量:  46
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-02
  • 网络出版日期:  2020-06-06

基于Tri-training MPLS的半监督软测量模型

    作者简介:李 东(1994-),男,河南尉氏人,博士生,主要研究方向为软测量。E-mail:lddscut@163.com
    通讯作者: 黄道平, audhuang@scut.edu.cn
  • 华南理工大学自动化科学与工程学院,广州 510641

摘要: 随着污水处理过程日趋复杂,易测量变量和难测量变量的比例严重失衡,传统的监督性软测量建模方法已经无法满足需求。针对这一问题,提出了一种新的半监督学习的软测量模型——Tri-training MPLS模型。将标记数据均分为相互独立的3个部分,并由这3个相互独立的标记样本子集选择置信度高的未标记样本训练模型,提高模型的预测能力。此外,将单输出软测量模型升级为多输出模型,对多个输出的变量直接建模预测。最后,通过污水处理仿真模型BSM1(Benchmark Simulation Model-1)平台对本文模型进行验证。结果表明,该软测量模型不仅具有较好的多输出预测能力,且对单个预测结果也有令人满意的预测表现。

English Abstract

  • 在工业生产领域,由于生产过程的复杂性,存在大量的难以测量或不易检测的重要参数。针对这一问题,软测量技术提供了一个有效的解决方案[1-3]。近年来,软测量技术广泛应用于单输出系统的预测,对多输出预测模型的研究极少[4]。然而,在复杂的生产过程中,急需对多个难以测量的重要参数进行同时预测[5-6]。在众多的软测量建模方法中,目前常用的软测量建模方法有基于机理建模的方法、基于数据驱动建模的方法以及两者相结合的混合建模方法[7]。基于机理建模的方法需要掌握生产过程的详细信息和生化反应原理,对于复杂的工业生产过程而言获取较为困难,使得建立相应的机理模型变得极为不易。基于数据驱动建模的方法则只需要通过一些已知的数据可以直接根据这些数据的内在联系构建软测量模型,因此,基于数据驱动的建模方法得到了广泛的关注[8-9]

    在实际的工业过程中,受到现有技术和生产环境的束缚,很多情况下已标记样本数量有限,如何充分使用未标记样本来提升模型质量成为当务之急。为解决这一难题,Shahshahani等[10]首次提出了半监督学习的思想,并成功应用于软测量建模[11-13]。半监督学习方法利用少量的标记样本构建模型,然后通过未标记样本对模型训练,提高模型质量。然而,在训练过程中,由于无法剔除错误的未标记数据,导致错误累计,影响模型的预测能力。为挑选合适的未标记数据训练模型,Blum等[14]提出了协同训练算法,通过两个相互独立的回归模型,采用交叉验证的方法挑选数据,训练模型。

    为了提高多输出模型中数据选择的正确性,本文提出了一种新的软测量模型——Tri-training MPLS模型。该模型通过3个具有不同特征的回归模型对未标记数据进行验证,挑选出置信度最高的未标记数据训练模型,建立更准确的软测量模型。此外,该模型能够对多个难测量变量进行同步预测,提高了预测效率。最后,通过污水处理仿真模型BSM1平台验证,结果表明,当标记样本的比例较少时,Tri-training MPLS模型具有更好的预测性能。

    • MPLS算法是在PLS算法框架上的多数扩展,不同之处在于输出数据$ {{Y}} $由原来的单列向量转化成了多输出矩阵。数学过程如下:

      其中:$ {{X}}\in {\bf{R}}^{n\times m} $$ {{Y}}\in {\bf{R}}^{n\times l} $分别为输入和输出矩阵,$ n $为数据集的个数,$ m $为输入变量的个数,$ l $为输出变量的个数;$ {{T}}\in {\bf{R}}^{n\times a} $$ {{U}}\in {\bf{R}}^{n\times a} $分别是$ {{X}} $$ {{Y}} $的得分矩阵,$ a $表示潜在的变量个数;$ {{t}}_{h} $$ {{T}} $的第$ h $行;$ {{u}}_{h} $$ {{U}} $的第$ h $行;$ {{P}}(a\times m) $$ {{Q}}(a\times \mathrm{l}) $为加载矩阵;$ {{p}}_{h} $$ {{P}} $的第$ h $行;$ {{q}}_{h} $$ {{Q}} $的第$ h $行;$ {{E}} $$ {{F}} $为噪声矩阵。$ {{u}}_{h} $$ {{t}}_{h} $之间的关系如下:

      其中:$ {b}_{h} $$ {{X}} $空间主元$ {{t}} $$ {{Y}} $空间主元$ {{u}} $的内部相关关系的回归系数;$ {{U}}={{T}}{{B}} $, $ {{B}}\in {\bf{R}}^{a\times a} $表示回归矩阵。因此,$ {{X}} $$ {{Y}} $之间的关系可以表示为$ {{Y}}={{T}}{{B}}{{Q}}+{{F}} $

      MPLS是一种常见的多元统计分析方法,不仅可以减少数据的维度,还可以建立预测模型,是解决工业过程中数据预测问题的有力工具[15-16]

    • 随着半监督建模方法的发展,其在建模领域得到了广泛的关注[17-18]。然而,由于如何考察新的标记数据的置信度问题一直未能很好地解决,所以有关协同训练算法建模的方法一直未得到有效应用。为此,周志华等[19]提出了协同训练回归(Co-training Regression)方法。首先,由最初的标记样本集建立初始模型$ h $,通过$ h $计算出标记样本集的均方根误差$ {R}_{1} $。然后,再由$ h $计算出未标记数据$ {x}_{u} $的回归值$ {\hat y}_{u} $,并将$ ({x}_{u},{\hat y}_{u}) $作为新的标记样本放入最初的标记样本集中。由新的标记样本集建立模型$ h' $,计算原来的标记样本集在模型$ h' $下的均方根误差$ {R}_{2} $。计算${R_1}$${R_2}$的差值$ {\Delta }_{u} $,取$ {\Delta }_{u} $中的最大值作为新加的标记数据$ ({x}_{u},{\hat y}_{u}) $的最高置信度。具体公式如下:

      其中:$ {x}_{i}\in L $为标记输入数据;$ {y}_{i}\in L $为标记输出数据;$ L $为标记样本集,$ \left|L\right| $为样本集大小;$ h $为原始回归模型;$ h' $为加入新的标记数据$ {x}_{u} $后产生的回归模型。

      协同训练回归根据协同训练的思想建立两个相互独立的初始模型,在验证过程中,采用交叉验证的方式,减少对错误数据的选择。当达到最大迭代次数时,由最终的标记样本集建立模型$ {h}_{1} $$ {h}_{2} $,预测值由两者的均值决定:

    • 目前,Tri-training回归的难题依旧是如何找到置信度最高的未标记数据。同样,采用协同回归方法中置信度的判别方式,通过计算$ {R}_{1} $$ {R}_{2} $的差值$ {\Delta }_{u} $并取其最大值作为未标记数据$ ({x}_{u},{\hat y}_{u}) $的最高置信度。然而不同的是当给一个原始的标记样本集中添加新的标记数据时,需要通过另外两个模型回归量的均值作为新的标记数据的回归量:

      式中:$ {h}_{i} $$ {h}_{j} $$ {h}_{k} $是3个独立的回归模型。

      在多输出系统下,输出数据$ {{y}} $由原来的单列向量变为多列矩阵,均方根误差(RMSSD)的求解公式如下:

      式中:trace是矩阵的迹。

      当达到最大迭代次数时,由最终的标记样本集建立模型$ {h}_{1} $$ {h}_{2} $$ {h}_{3} $,预测值由三者的均值决定:

    • Tri-training MPLS模型的核心是将Tri-training算法和多输出PLS算法相结合生成对多输出系统的软测量模型。其优势在于,由上述的置信度判断依据选择正确性更高的未标记数据,模型的预测效果更好;其次,通过标记数据集建立3个相互独立的回归模型,使得预测模型具有广泛性;最后,Tri-training MPLS模型能够同时对多个输出变量预测,极大地提高了预测的效率和模型的整体性。

      Tri-training PLS模型的具体过程如下:设$ L=\left\{X,Y\right\}=\left\{\left({x}_{1},{y}_{1}\right),\left({x}_{2},{y}_{2}\right),\dots ,({x}_{\left|L\right|},{y}_{\left|L\right|})\right\} $表示标记数据集,$ \left|L\right| $表示数据集个数,$ U $是未标记数据集,$ \left|U\right| $表示数据集个数。首先,将$ L $平均分成三部分,记为$ {L}_{1}\mathrm{、}{L}_{2}\mathrm{、}{L}_{3} $,将$ {L}_{1},{L}_{2},{L}_{3} $与传统的偏最小二乘算法结合生成相互独立的3个回归模型$ {P}_{1}\mathrm{、}{P}_{2}\mathrm{、}{P}_{3} $。然后,取未标记数据集$ U $中的数据$ {x}_{\mathrm{u}} $,分别带入到$ {P}_{1}\mathrm{、}{P}_{2}\mathrm{、}{P}_{3} $计算回归量。在学习过程中,用其中两个回归量的均值来更新另一个标记样本集。随着迭代的进行,该过程不仅不断地建立3个相互独立的回归模型,而且在差异越来越大的回归量上更新标记数据集。为了选取合适的未标记数据,利用上文提到的方法估计未标记数据的置信度,然后对满足置信条件的未标记数据计算回归量,将两个回归量的均值作为新的标记数据放入另一个标记样本集中。最后,由新的标记样本集$ {L}_{1}\mathrm{、}{L}_{2}\mathrm{、}{L}_{3} $建立新的模型$ {h}_{1}、{h}_{2}、{h}_{3} $,通过求取三者均值作为最终的预测值。Tri-training MPLS的详细流程如下:

      输入: 标记样本集L (包含输入变量$ {x}_{l} $ 和输出变量$ y $),

      未标记样本集U(仅包含输入$ {x}_{u} $),测试样本集P,

      最大迭代次数T

      过程:

      分别将$ {x}_{l} $$ {x}_{u} $均分为三部分:$ {x}_{l}^{1},{x}_{l}^{2}{,x}_{l}^{3} $$ {x}_{u}^{1}{,x}_{u,}^{2}{x}_{u}^{3} $

      ${L}_{1}=\left\{\left({x}_{1}^{1},{y}_{1}\right),\left({x}_{2}^{1},{y}_{2}\right),\cdots ,\left({x}_{\left|L\right|}^{1}{y}_{\left|L\right|}\right)\right\}$

      ${L}_{2}=\left\{\left({x}_{1}^{2},{y}_{1}\right),\left({x}_{2}^{2},{y}_{2}\right),\cdots ,\left({x}_{\left|L\right|}^{2}{y}_{\left|L\right|}\right)\right\}$

      ${L}_{3}=\left\{\left({x}_{1}^{3},{y}_{1}\right),\left({x}_{2}^{3},{y}_{2}\right),\cdots ,\left({x}_{\left|L\right|}^{3}{y}_{\left|L\right|}\right)\right\}$

      进行T次迭代:

      For $ j\in \left\{\mathrm{1,2},3\right\} $ do

      ${h_j} = {\rm{pls}}\left( {{L_j}} \right)$

      for each $ {x}_{u}\in U $ do

      $ {y}_{u}={h}_{j}\left({x}_{n}^{j}\right) $

      $h_j' = {\rm{pls}}({L_j} \cup \left\{ {x_u^j,{y_u}} \right\})$

      end of for

      如果存在$ {\nabla }_{{x}_{u}}>0 $

      ${x_n} = {\rm{argmax}}{\nabla _{{x_u}}};y_n^j = {h_j}\left( {{x_n}} \right)$

      $ {\hat y}_{n}^{1}=\left({y}_{n}^{2}+{y}_{n}^{3}\right)/2 $; $ {\hat y}_{n}^{2}=\left({y}_{n}^{1}+{y}_{n}^{3}\right)/2 $; $ {\hat y}_{n}^{3}=\left({y}_{n}^{1}+{y}_{n}^{2}\right)/2 $

      然后$ U=U-{x}_{n} $

      $ {\pi }_{j}=\left\{\left({x}_{n},{\hat y}_{n}^{j}\right)\right\} $

      $ U=U $

      否则

      $ {\pi }_{j}={\varnothing } $

      End of for

      ${L_j} = {L_j} \cup {\pi _j}$

      达到最高迭代次数,结束迭代

      输出新的标记样本集t $ {L}_{1} $$ {L}_{2} $ and $ {L}_{3} $

      for $ j\in \left\{\mathrm{1,2},3\right\} $ do

      ${h_j} = {\rm{pls}}\left( {{L_j}} \right)$

      end of for

      验证模型预测能力:

      $ x\in P $

      ${y}_{p}=\displaystyle\frac{1}{3}\left({h}_{1}\left(x\right)+{h}_{2}\left(x\right)+{h}_{3}\left(x\right)\right)$

      为比较Co-training MPLS模型和Tri-training MPLS模型算法的复杂性,图1示出了两种模型的流程图。由图1可知,两种模型的算法都被分为训练环节和测试环节两部分,不同之处在于训练环节中,Co-training MPLS模型将标记数据均分为两部分,由两组标记数据子集同时评价未标记数据的置信度。而Tri-training MPLS算法是将标记数据三等分,有3组标记数据子集同时评价未标记数据的置信度,并选择置信度较高的未标记数据加入到标记数据集中。3个相互独立的标记样本子集同时训练,避免了因单个数据级判断错误而影响选择的质量,致使错误累计,最终导致预测结果较差。从算法复杂度的角度分析,无论是2组标记子集还是3组标记子集,训练过程是一致的,只是Tri-training MPLS算法的训练时间会相对较长。

      图  1  Co-training MPLS(a)和Tri-training MPLS(b)模型的流程图

      Figure 1.  Flow chart of co-training MPLS (a) and tri-training MPLS (b) models

      为了评价Tri-training MPLS 模型的预测性能,采用传统的均方根误差(RMSE)和D-values指标评价,定义如下:

      其中:$ n $表示样本数量;$ {\hat y}_{i} $表示预测值;$ {y}_{i} $表示真实值。

    • 污水处理仿真模型BSM1平台由(COST) 682/624 Action开发,该平台的设备布局如图2所示,由一个生物反应器(5999 m3)和一个二次沉淀池(深4 m,10层, 6000 m3)组成。生物反应器包含5个混合小单元,前2个单元(每个1000 m3)为非曝气的,后3个单元(每个1333 m3)为曝气的。处理污水的平均流量为20000 m3/d,可生物降解的化学需氧量(COD)的平均浓度为300 mg / L。为了去除有机物,需要进行硝化和反硝化反应[20-21]

      图  2  BSM1污水处理厂示意图

      Figure 2.  Schematic diagram of BSM1

      仿真过程中,共纳入了15个输入变量和5个输出变量,详细的变量信息如表1所示。本案例的研究目的是验证Tri-training MPLS模型对SS-E、SNH-E、SNO-E、COD-E和BOD5-E等不易测量变量的预测性能。每隔15 min对各个变量采样一次,模拟14d,共1 344组数据。分别将前1天、2天、…、7天的样本作为已标记数据集,剩余部分作为未标记数据集,最大学习次数设置为5次。最后,用剩余7天的数据作为测试样本集,对模型进行测试。

      NoVariablesCommentsNoVariablesComments
      1SS-1Readily biodegradable substrate-111SO-2Oxygen-2
      2SS-inReadily biodegradable substrate influent12SO-5Oxygen-5
      3SNH-1NH4++NH3 nitrogen-113Q-trFlow rate internal recycling
      4SNH-2NH4++NH3 nitrogen-214Q-inFlow rate influent
      5SNH-3NH4++NH3 nitrogen-315COD-inChemical oxygen demand for influent
      6SNH-inNH4++NH3 nitrogen influent16SS-EReadily biodegradable substrate effluent
      7SNO-1Nitrate and nitrite nitrogen-117SNH-ENH4++NH3 nitrogen effluent
      8SNO-2Nitrate and nitrite nitrogen-218SNO-ENitrate and nitrite nitrogen effluent
      9SNO-3Nitrate and nitrite nitrogen-319COD-EChemical oxygen demand for effluent
      10SO-1Oxygen-120BOD5-EFive-day biological oxygen demand effluent

      表 1  BSM1平台中的变量

      Table 1.  Variables of the BSM1

      图3示出了标记样本为4d时两种模型的预测曲线和D-values。可以看出,协同训练MPLS模型和Tri-training MPLS模型均能够同时对多个输出变量预测,且预测效果良好,尤其是对污水排放指标中的重要参数BOD5-E的预测,RMSE值分别达到了0.08和0.07,预测曲线与真实值基本一致,其他具体参数见表2。MPLS算法作为一种线性建模方法,显然对于输出数据中波动较大的地方预测性能较差,特别是预测曲线中的峰值点和谷值点,都没有达到良好的预测结果。

      LabeleddataCo-training MPLSTri-training MPLS
      SS-ESNH-ESNO-ECOD-EBOD5-ESS-ESNH-ESNO-ECOD-EBOD5-E
      1 day0.2020.469.61257.120.180.1448.555.3464.370.03
      2 day0.065.401.7616.420.070.067.151.7415.560.07
      3 day0.065.961.7215.230.110.074.391.9522.400.12
      4 day0.105.541.7010.500.080.085.691.7211.020.07
      5 day0.105.171.796.100.050.084.961.646.790.05
      6 day0.063.191.183.370.030.063.021.193.400.03
      7 day0.032.021.412.490.030.032.011.432.500.03

      表 2  输出变量的RSME值

      Table 2.  RMSE values of output variables

      图  3  两种模型的预测曲线和D-values

      Figure 3.  Prediction curves and D-values of two models

      图4示出了输出变量RMSE的变化曲线图。通过表2图 4分析,当标记数据所占天数仅为1d时,Tri-training MPLS模型中的SS-E、SNO-E、COD-E和BOD5-E的RSME值均小于协同训练MPLS模型的RSME值。因此,在标记数据极少的情况下,Tri-training MPLS模型对于污水处理过程中的重要指标参数的预测能力优于协同训练MPLS模型。但观察发现,COD-E的RSME值在标记数据为1 d时分别为257.12和64.37,明显偏大。随着标记数据所占天数的增加,各个输出变量的RMSE均在减小,尤其是COD-E的RSME由257.12和64.37迅速减小到2.49和2.50。这说明当标记样本较少时,对于波动较大的输出变量,协同训练MPLS模型和Tri-training MPLS模型需要通过少量的标记数据将建立2个或者3个回归模型,导致模型不准确,预测表现不佳。当标记数据充足时,两个模型均能通过标记数据建立更准确的预测模型,并且通过未标记数据训练模型,对多个输出变量进行精准的预测。综上所述,在仅仅具有少量的标记数据情况下,Tri-training MPLS模型对多个输出变量的预测效果优于协同训练MPLS模型,当标记数据增多时,两种模型的预测表现差别不大。

      图  4  不同标记样本率下的RMSE变化曲线

      Figure 4.  RMSE curves under different labeled data rates

      表3列出了两种模型在不同标记样本率下的时间消耗对比结果。无论是协同训练 MPLS模型还是Tri-training MPLS模型,随着标记样本率的增加,时间消耗也在增加。在相同的标记样本率下,Tri-training MPLS模型的时间消耗相对于协同训练MPLS模型有所增长,这主要是因为3组标记数据子集的训练要比两组费时,但是Tri-training MPLS模型的预测结果较好。

      ModelTime consumption
      1 day2 day3 day4 day5 day6 day7 day
      Co-training MPLS22.12434.18645.78260.01571.68981.47393.159
      Tri-training MPLS25.65739.24949.56161.95472.01984.55496.233

      表 3  不同的标记样本率下的时间消耗

      Table 3.  Time consumption under different labeled data rate

    • 针对多输出系统中的软测量建模问题,当输入和输出数据严重不平衡时,本文提出了一种新的软测量模型——Tri-training MPLS模型。通过污水处理仿真模型BSM1平台的仿真研究,验证了模型的有效性。仿真结果表明,虽然Tri-training MPLS模型在预测时间上相较于协同训练MPLS模型有一定的滞后,但预测效果上却有明显的提升,尤其是对重要出水指标COD-E,其RSME值比协同训练 MPLS模型平均减小26.46。该模型为多输出系统中难以测量的变量预测问题提供了一个有效的解决方法。然而,也不难发现,模型对于峰值点和谷值点的预测效果不佳。在实际的工业生产过程中,也会存在着正常波动和离群点,影响模型的预测表现。针对这一问题,下一步的研究会将Tri-training算法与非线性的多输出回归算法结合,并且,在建模之前对数据进行标准化处理,以降低因数据波动对预测表现造成的影响。

(4)  表(3) 参考文献 (21) 相关文章 (20)

目录

    /

    返回文章