高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于XGBoost模型的炼油厂氢气网络动态多输出预测模型

    作者简介: 王 宁(1993-),女,吉林集安人,硕士生,主要研究方向:复杂系统建模、分析与控制。E-mail:885153318@qq.com;
    通讯作者: 曹萃文, caocuiwen@ecust.edu.c
  • 中图分类号: TE 68

A Dynamic Multi-output Prediction Model of the Hydrogen Network in a Real-World Refinery Based on XGBoost Model

    Corresponding author: Cuiwen CAO, caocuiwen@ecust.edu.c
  • CLC number: TE 68

  • 摘要: 对基于XGBoost模型的炼油厂氢气网络动态多输出预测模型进行了研究,用最小新氢消耗量和最小氢气剩余量两种指标的动态数据进行氢气网络动态多输出预测,对模型性能进行了评估,并与反向传播(BP)神经网络模型的预测结果进行了比较,得到了很好的预测效果,最后分析了5类操作参数特征对输出指标的影响。
  • 图 1  两种目标在测试集上的MAE变化曲线

    Figure 1.  MAE curves of the two targets on the test set

    图 2  测试集样本两种目标的预测误差散点图

    Figure 2.  Scatter diagram of prediction error for the two targets of the test set samples

    图 3  两种目标特征重要度得分

    Figure 3.  Feature importance scores of the two targets

    表 1  炼油厂氢气装置数据汇总

    Table 1.  Data collection of hydrogen plant in refinery

    SourceFlow/(Nm3·h-1)Purity/%SinkFlow(Nm3·h-1)Purity/%
    SC1 37 332.6 99.90 SK1 1 823.0 99.90
    SC2 22 700.3 99.90 SK2 10 000.0 99.90
    SC3 $F_3^{max }$ $y_3$ SK3 40 000.0 98.00
    SC4 5 000.0 92.00 SK4 24 153.0 97.00
    SC5 866.0 67.21 SK5 431.0 92.00
    SC6 3 909.0 32.21 SK6 400.0 91.00
    SC7 6 952.0 30.29 SK7 250.0 91.00
    SK8 10 000.0 90.00
    SK9 6 000.0 85.00
    下载: 导出CSV

    表 2  连续重整装置氢气纯度和氢气产量动态数据

    Table 2.  Dynamic data of hydrogen purity and hydrogen production in continuous reforming unit

    Reactor 1 T (℃)Reactor 2 T (℃)Reactor 3 T (℃)Reactor 4 T (℃)Recycle hydrogen/(Nm3·h-1)Purity/%Flow/(Nm3·h-1)
    537.0 535.0 535.0 535.0 3 934.0 92.87 116 691.3
    537.5 536.0 536.0 535.5 3 971.0 92.86 116 631.5
    538.0 537.0 537.0 536.0 4 007.0 92.85 116 547.5
    538.5 538.0 538.0 536.5 4 044.0 92.84 116 487.7
    539.0 539.0 539.0 537.0 4 080.0 92.83 116 427.9
    $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $
    下载: 导出CSV

    表 3  最小新氢消耗量目标和最小氢气剩余量目标动态数据

    Table 3.  Dynamic data of the minimum fresh hydrogen consumption and the minimum hydrogen surplus

    Reactor 1 T (℃)Reactor 2 T (℃)Reactor 3 T (℃)Reactor 4 T (℃)Recycle hydrogen/(Nm3·h-1)Minimum fresh/(Nm3·h-1)Minimum surplus/(Nm3·h-1)
    537.0 535.0 535.0 535.0 3 934.0 55 201.7 100 394.2
    537.5 536.0 536.0 535.5 3 971.0 55 231.2 100 334.4
    538.0 537.0 537.0 536.0 4 007.0 55 260.6 100 250.5
    538.5 538.0 538.0 536.5 4 044.0 55 289.9 100 190.7
    539.0 539.0 539.0 537.0 4 080.0 55 319.2 100 130.8
    $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $
    下载: 导出CSV

    表 4  最小新氢消耗量和最小氢气剩余量真实值和模型预测值数据

    Table 4.  Real values and model predictive values of the minimum fresh hydrogen consumption and the minimum hydrogen surplus

    Real minimum fresh/(Nm3·h-1)Real minimum surplus/(Nm3·h-1)Predictive minimum fresh/(Nm3·h-1)Predictive minimum surplus/(Nm3·h-1)
    55 348.4 100 408.8 55 345.4 100 401.1
    55 112.6 100 115.4 55 111.9 100 119.0
    55 319.2 100 348.0 55 312.3 100 336.3
    55 142.4 100 369.1 55 150.4 100 366.1
    55 201.7 100 273.6 55 220.4 100 240.9
    $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $
    55 022.8 100 294.8 55 013.3 100 305.8
    55 260.6 100 443.5 55 263.4 100 445.5
    55 052.8 100 090.4 55 059.0 100 086.9
    55 112.6 100 019.0 55 117.0 100 021.5
    55 052.8 100 042.2 55 064.0 100 047.8
    下载: 导出CSV

    表 5  基于XGBoost的氢气网络动态多输出预测模型性能指标

    Table 5.  Performance indexes of the dynamic multi-output prediction model of the hydrogen network based on XGBoost

    Performance indexMAERMSPE
    Minimum fresh10.0526211.03038
    Minimum surplus0.000240.00018
    下载: 导出CSV

    表 6  BP神经网络模型性能指标

    Table 6.  Performance indexes of the back propagation neural network model

    Performance indexMAERMSPE
    Minimum fresh178.43252193.14869
    Minimum surplus0.004370.00282
    下载: 导出CSV
  • [1] LINNHOFF B, HINDMARSH E. The pinch design method for heat exchanger networks[J]. Chemical Engineering Science, 1983, 5: 745-763.
    [2] TOWLER G P, MANN R, SERRIERE A J, et al. Refinery hydrogen management: Cost analysis of chemically-integrated facilities[J]. Industrial & Engineering Chemistry Research, 1996, 35(7): 2378-2388.
    [3] MAO J B, SHEN R J, WANG Y J, et al. An integration method for the refinery hydrogen network with coupling sink and source[J]. International Journal of Hydrogen Energy, 2015, 40: 8989-9005. doi: 10.1016/j.ijhydene.2015.05.052
    [4] ZHOU L, LIAO Z W, WANG J D, et al. Optimal design of sustainable hydrogen networks[J]. International Journal of Hydrogen Energy, 2013, 38: 2937-2950. doi: 10.1016/j.ijhydene.2012.12.084
    [5] JIA N, ZHANG N. Multi-component optimisation for refinery hydrogen networks[J]. Energy, 2011, 36: 4663-4670. doi: 10.1016/j.energy.2011.03.040
    [6] HALLALE N, LIU F. Refinery hydrogen management for clean fuels production[J]. Advances in Environmental Research, 2001, 6(1): 81-98. doi: 10.1016/S1093-0191(01)00112-5
    [7] 曹萃文, 顾幸生, 王宁, 等. 一种夹点法与超结构法混合的炼油厂氢气网络优化调度方法: 中国发明专利, 公开号: CN107918280A[P]. 2018-04-17.
    [8] E1-HALWAGI M, GABRIEL F, HARELL D. Rigorous graphical targeting for resource conservation via Material Recycle /Reuse Networks[J]. Industrial & Engineering Chemistry Research, 2003, 42(19): 4319-4328.
    [9] 唐明元, 刘桂莲, 冯霄. 利用氢夹点图解法分析某炼厂的氢网络[J]. 华北电力大学学报, 2007, 34(2): 48-51.
    [10] 焦云强, 苏宏业, 侯卫锋. 炼油厂氢气网络柔性优化[J]. 化工学报, 2012, 63(9): 2739-2748. doi: 10.3969/j.issn.0438-1157.2012.09.011
    [11] CHEN T Q, GUESTRIN C. XGBoost: A Scalable Tree Boosting System[C] // ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016: 785-794.
    [12] LEI T L, CHEN F, LIU H, et al. ADMET Evaluation in Drug Discovery. Part 17: Development of Quantitative and Qualitative Prediction Models for Chemical-Induced Respiratory Toxicity[J]. Molecular Pharmaceutics, 2017, 14: 2407-2421. doi: 10.1021/acs.molpharmaceut.7b00317
    [13] LI G Y, LI W, TIAN X L, et al. Short-term electricity load forecasting based on the xgboost algorithm[J]. Smart Grid, 2017, 7: 274-285. doi: 10.12677/SG.2017.74031
    [14] LI P, ZHANG J S. A New Hybrid Method for China’s Energy Supply Security Forecasting Based on ARIMA and XGBoost[J]. Energies, 2018, 11: 1687. doi: 10.3390/en11071687
    [15] XIA Y F, LIU C Z, LI Y Y, et al. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring[J]. Expert Systems with Applications, 2017, 78: 225-241. doi: 10.1016/j.eswa.2017.02.017
    [16] 叶倩怡. 基于Xgboost方法的实体零售业销售额预测研究[D]. 南昌: 南昌大学, 2016.
    [17] ISMAIL B M, FAISAL S. Bioactive Molecule Prediction Using Extreme Gradient Boosting[J]. Molecules, 2016, 21(8): 983. doi: 10.3390/molecules21080983
    [18] 雷雪梅, 谢依彤. 用于高血压菜谱识别的基于遗传算法的改进XGBoost模型[J]. 计算机科学, 2018, 45: 476-481. doi: 10.11896/j.issn.1002-137X.2018.Z6.102
    [19] BAKER J, POMYKALSKI A, HANRAHAN K, et al. Application of machine learning methodologies to multiyear forecasts of video subscribers[C] // Systems and Information Engineering Design Symposium. IEEE, 2017: 100-105.
    [20] GE Y Z, HE S, XIONG J Y, et al. Customer churn analysis for a software-as-a-service company[C] // Systems and Information Engineering Design Symposium. IEEE, 2017: 106-111.
    [21] ZHANG Y, HUANG Q J, MA X J, et al. Using Multi-features and Ensemble Learning Method for Imbalanced Malware Classification[C] // Trustcom/bigdatase/ispa. IEEE, 2016: 965-973.
    [22] AYUMI V. Pose-based human action recognition with Extreme Gradient Boosting[C] // Research and Development. IEEE, 2016: 1-5.
    [23] SHERIDAN R P, WANG W M, LIAW A, et al. GIFFORD, E M. Extreme gradient boosting as a method for quantitative structure-activity relationships[J]. Journal of Chemical Information & Modeling, 2016, 56: 2353-2360.
    [24] XIA Y F, LIU C Z, LIU N N. Cost-sensitive boosted tree for loan evaluation in peer-to-peer lending[J]. Electronic Commerce Research, 2017, 24: 30-49. doi: 10.1016/j.elerap.2017.06.004
    [25] WANG S X, DONG P F, TIAN Y J. A Novel Method of Statistical Line Loss Estimation for Distribution Feeders Based on Feeder Cluster and Modified XGBoost[J]. Energies, 2017, 10: 2067. doi: 10.3390/en10122067
    [26] 岳宇飞, 罗健旭. 一种改进的SOM神经网络在污水处理故障诊断中的应用[J]. 华东理工大学学报(自然科学版), 2017, 43: 389-396.
    [27] 吴朔枫, 颜学峰. 基于即时学习的集成神经网络及其干点预测[J]. 华东理工大学学报(自然科学版), 2016, 42: 696-701.
    [28] 李闻杰. 炼油厂氢气网络优化[D]. 上海: 华东理工大学, 2011.
  • [1] 李岁王元华 . 油田水套加热炉高温空气燃烧瞬态模拟及最小换向时间. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180723008
    [2] 金志超高大启朱昌明王喆 . 基于权重的多视角全局和局部结构风险最小化分类器. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180704001
    [3] 宋振振陈兰岚娄晓光 . 基于时序卷积网络的情感识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190508001
    [4] 饶毓和凌志浩 . 一种结合主题模型与段落向量的短文本聚类方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190430001
    [5] 高炳舒刘士荣 . 基于BoW模型的RGB-D SLAM算法的运动轨迹估计. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180419001
    [6] 张剑超杜文莉覃水 . 基于新型自适应采样算法的催化重整过程代理模型. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180915001
    [7] 魏琛陈兰岚张傲 . 基于集成卷积神经网络的脑电情感识别. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180416004
    [8] 陈鹏罗娜 . 基于竞争机制差分进化算法的无分流换热网络优化. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181015004
    [9] 张习习顾幸生 . 基于集成学习概率神经网络的电机轴承故障诊断. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206001
    [10] 解冰朱宏擎 . 一种基于选择性卷积特征和最大后验高斯混合模型的细粒度图像分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180603001
    [11] 王俊黄秀辉崔国民 . 碘硫循环制氢中HI浓缩精馏的模拟. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.
    [12] 尚旭景希玮徐健郑柏存公维光 . 不同分子量聚乙烯吡咯烷酮对多壁碳纳米管分散性能的影响. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180820002
  • 加载中
图(3)表(6)
计量
  • 文章访问数:  1409
  • HTML全文浏览量:  600
  • PDF下载量:  1
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-11-04
  • 网络出版日期:  2019-11-25

基于XGBoost模型的炼油厂氢气网络动态多输出预测模型

    作者简介:王 宁(1993-),女,吉林集安人,硕士生,主要研究方向:复杂系统建模、分析与控制。E-mail:885153318@qq.com
    通讯作者: 曹萃文, caocuiwen@ecust.edu.c
  • 华东理工大学化工过程先进控制与优化技术教育部重点实验室,上海,200237

摘要: 对基于XGBoost模型的炼油厂氢气网络动态多输出预测模型进行了研究,用最小新氢消耗量和最小氢气剩余量两种指标的动态数据进行氢气网络动态多输出预测,对模型性能进行了评估,并与反向传播(BP)神经网络模型的预测结果进行了比较,得到了很好的预测效果,最后分析了5类操作参数特征对输出指标的影响。

English Abstract

  • 氢作为一种原料或者副产品广泛应用于工业中,在传统能源深加工方面起着举足轻重的作用,而炼油业是氢消耗的最大终端市场,氢是炼油厂生产高质量石化产品的重要原料。近年来,由于环境法规限制以及价格越来越昂贵但质量很差的原油,炼油厂被迫增加加氢处理流程。

    目前,氢气网络的优化方法主要包括夹点分析法和超结构法。夹点分析法是一种基于热力学原理的过程集成技术,于20世纪80年代初由英国著名学者Linnhoff和Hindmarsh[1]提出。1996年,Towler等[2]首次将这种方法用于氢气网络。夹点分析法通常采用图形化方法,物理意义明确,易于理解,操作简单,但它无法直接获得精确的操作点,对于复杂的系统不能表现出很好的效果,虽然夹点分析法对公用工程量的优化很有用,但对于多目标的优化问题,却无法单独使用;另外,夹点分析法无法有效处理所有的实际约束。因此,研究者对应用于氢气网络优化问题的数学规划法(超结构法)进行了大量研究工作[3-5]

    超结构法是一种建立与实际工程相符合的数学规划模型的方法,它是系统工程中的一种重要研究方法,在换热网络、水网络和反应器网络等的建模和优化方面得到了广泛的应用。2001年,Hallale等[6]首先提出将超结构法应用于氢气网络的优化问题上。超结构法可以用于包含复杂约束的氢气网络系统,也可以用于多目标的氢气网络优化问题,具有一定的灵活性。但是,超结构法不像夹点分析法那样直观和物理意义明确,且存在不合理不贴合实际的地方。因此,曹萃文等[7]以一种氢夹点图解法[8-9]原理为基础,针对现有的炼油厂氢气网络的超结构模型[6, 10],建立夹点法约束,并融入超结构法模型进行混合建模,同时考虑最小新氢(即高纯度氢气)消耗量以及最小氢气剩余量两种因素下的模型。但是该模型的目标是静态的目标,在氢气网络的优化问题中,往往将氢气的流量和纯度采用一个固定不变的设计值,但在产氢或耗氢的实际生产过程中,这些量往往随着温度等参数的变化而变化,因此,模型的目标也应该是动态变化的目标,存在着不确定性。

    XGBoost模型是由Chen等[11]在2016年提出的一种新型的深度学习模型,近年来被数据科学家广泛使用,以其通用的可扩展性在许多领域取得先进的成果。Lei等[12]使用了六种机器学习方法建立预测模型,其中XGBoost分类模型实现了最准确的预测。Guangye等[13]建立了一个多信息的短期电力负荷XGBoost模型进行电力负荷预测,结果表明,XGBoost预测模型相对于随机森林、贝叶斯和K近邻模型在训练速度和预测精度方面都具有优势[14]。Xia等[15]使用贝叶斯超参数的XGBoost以优化信用评分模型,叶倩怡[16]进行了基于XGBoost的实体零售业销售额预测研究,Mustapha等[17]使用XGBoost模型对生物活性分子进行了预测[18]。XGBoost模型在信息技术和软件工程[19-22],生物与医学工程[12, 17, 23],经济与金融[15, 24]等诸多领域有着卓越的表现[25],但是还未被应用到氢气网络工业工程中。

    本文以某炼油厂实际连续重整装置氢气纯度和氢气产量的动态变化数据为基础,通过文献[7]计算得到以最小新氢消耗量和最小氢气剩余量为目标的动态数据,首次提出采用XGBoost模型对氢气网络的两种动态目标建立动态多输出预测模型并进行预测分析。由于神经网络是非线性系统控制与建模的重要手段[26-27],因此,本文与BP神经网络模型的预测结果进行了比较,以验证模型的有效性。

    • 炼油厂的新氢一般较难制取,成本较高,氢气网络的优化要求新氢用量最小化。炼油厂通常不对氢气设立储罐进行余量储存,生产过程中,多余的氢气将排入燃料系统或者放空燃烧。因此,考虑到炼油厂的经济效益问题,对氢气网络因不同工况、不同氢气纯度和不同氢气产量的动态变化导致不同配置的氢源(产氢装置)和氢阱(耗氢装置)下的实时动态的最小新氢消耗量和最小氢气剩余量进行准确的预测,能够对氢气网络的合理配置与优化提供指导决策支持,减少新氢的消耗量和燃气的排放量,以提高炼油厂的技术水平和经济效益。

    • 某炼油厂中,现有5套产氢装置,分别为两套连续重整装置和三套制氢装置。1#和2#制氢经同一套PSA装置提纯,氢纯度达99.9%,3#制氢装置,由PSA提纯到99.9%,供后续用氢。目前,1#制氢装置正处于停工状态。除了PSA装置外,氢气提纯装置还包括1套膜分离装置[28]

      现有耗氢装置分别为S-Zorb、润滑油加氢、加氢裂化、4#柴油加氢、重整预加氢、苯抽提、航煤加氢、蜡油加氢处理、3#柴油加氢,分别用SK1~SK9表示。

      本文是在连续重整装置的原厂数据与Aspen HYSYS模拟数据的混合动态数据基础上进行的研究。设$F_3^{max }$表示两套连续重整装置的动态氢气产量,$y_3$表示动态氢气纯度,得到炼油厂涉氢装置数据汇总如表1所示,SC1~SC7分别代表2#制氢、3#制氢、1#+2#连续重整、膜分离、润滑油加氢干气、1#催化干气、3#催化干气等7个装置。

      SourceFlow/(Nm3·h-1)Purity/%SinkFlow(Nm3·h-1)Purity/%
      SC1 37 332.6 99.90 SK1 1 823.0 99.90
      SC2 22 700.3 99.90 SK2 10 000.0 99.90
      SC3 $F_3^{max }$ $y_3$ SK3 40 000.0 98.00
      SC4 5 000.0 92.00 SK4 24 153.0 97.00
      SC5 866.0 67.21 SK5 431.0 92.00
      SC6 3 909.0 32.21 SK6 400.0 91.00
      SC7 6 952.0 30.29 SK7 250.0 91.00
      SK8 10 000.0 90.00
      SK9 6 000.0 85.00

      表 1  炼油厂氢气装置数据汇总

      Table 1.  Data collection of hydrogen plant in refinery

      $F_3^{max }$$y_3$随反应器温度以及循环氢量变化的数据共计39 804组,表2列出了其中5组数据。

      Reactor 1 T (℃)Reactor 2 T (℃)Reactor 3 T (℃)Reactor 4 T (℃)Recycle hydrogen/(Nm3·h-1)Purity/%Flow/(Nm3·h-1)
      537.0 535.0 535.0 535.0 3 934.0 92.87 116 691.3
      537.5 536.0 536.0 535.5 3 971.0 92.86 116 631.5
      538.0 537.0 537.0 536.0 4 007.0 92.85 116 547.5
      538.5 538.0 538.0 536.5 4 044.0 92.84 116 487.7
      539.0 539.0 539.0 537.0 4 080.0 92.83 116 427.9
      $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $

      表 2  连续重整装置氢气纯度和氢气产量动态数据

      Table 2.  Dynamic data of hydrogen purity and hydrogen production in continuous reforming unit

      我们在“一种夹点法与超结构法混合的炼油厂氢气网络优化调度方法”[7]专利中提出一种氢气网络线性规划模型模型目标如下:

      最小新氢消耗量目标:

      最小氢气剩余量目标:

      ${{F_{j,k}}}$为氢源j分配到氢阱k的氢气流量,$F_j^{max } $为氢源j的最大设计供应量,$J$为氢源的集合,$K$为氢阱的集合,$J'$为新氢的集合,${F_{j',k}}$为新氢j’分配到氢阱k的氢气流量。

      表1中的数据以及连续重整装置的$F_3^{max }$$y_3$的39 804组动态变化数据代入上述模型,并采用单纯形算法程序求解该氢气网络线性规划模型,得到全局最优解。表3列出最小新氢消耗量目标和最小氢气剩余量目标的39 804组动态变化数据的其中五组数据。

      Reactor 1 T (℃)Reactor 2 T (℃)Reactor 3 T (℃)Reactor 4 T (℃)Recycle hydrogen/(Nm3·h-1)Minimum fresh/(Nm3·h-1)Minimum surplus/(Nm3·h-1)
      537.0 535.0 535.0 535.0 3 934.0 55 201.7 100 394.2
      537.5 536.0 536.0 535.5 3 971.0 55 231.2 100 334.4
      538.0 537.0 537.0 536.0 4 007.0 55 260.6 100 250.5
      538.5 538.0 538.0 536.5 4 044.0 55 289.9 100 190.7
      539.0 539.0 539.0 537.0 4 080.0 55 319.2 100 130.8
      $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $

      表 3  最小新氢消耗量目标和最小氢气剩余量目标动态数据

      Table 3.  Dynamic data of the minimum fresh hydrogen consumption and the minimum hydrogen surplus

    • XGBoost是一种大规模并行的Boosted Tree的模型[11],如果只依据一棵树进行预测,无法准确得到预测结果。因此,XGBoost采用多棵CART树进行预测,将每棵树的预测值加和作为最终的预测值。

      XGBoost模型中一共有3种类型的参数:通用参数(General Parameters),Booster参数(Booster Parameters)和学习目标参数(Task Parameters)。通用参数决定了上升过程中哪种上升模型被选择,通常是线性和树型模型;Booster参数取决于选择的上升模型类型;学习目标参数决定学习策略,定义学习任务和相应的学习目标。

      (1)通用参数

      booster:默认值为gbtree。决定使用哪个上升模型,可以是gbtree,gblinear或者dart。gbtree和dart使用基于树的模型,而gblinear使用线性函数。

      num_feature:XGBoost自动设置,不需要用户设置,在boosting提升过程中使用的特征维度,设置为特征的个数。

      silent:默认值为0,设置为0时连续打印运行信息,设置为1时静默模式,不打印。

      (2)Booster参数

      eta:默认值为0.3,别名为learning rate,更新叶子节点权重的时候,收缩步长来防止过拟合。在每次提升计算之后,可以直接获得新的特征权值,这样可以使得提升过程更加稳健。

      max_depth:默认值为6,这个值为树的最大深度,也是用来防止过拟合的。树的深度越大,越容易过拟合。

      lambda:默认值为1,L2正则化项的惩罚系数,用来控制XGBoost的正则化部分。参数越大,越不容易过拟合。

      n_estimatores:总共迭代的次数,即决策树的个数。

      (3)学习目标参数

      eval_metric:自定义评测函数,选择项如下有“rmse”: 均方根误差;“mae”: 平均绝对值误差;“logloss”: 负对数似然;“error”: 二分类错误率。其值通过错误分类数目与全部分类数目比值得到。对于预测,预测值大于0.5被认为是正实例,其它归为负实例。

      seed:默认值为0,随机数种子,设置它可以复现随机数据的结果,也可以用于调整参数。

      本文基于XGBoost的Python库,使用表3中的39 804组动态数据,随机选取20%数据做测试集,80%数据做训练集,以4个反应器温度以及循环氢数据为输入特征,以最小新氢消耗量和最小氢气剩余量数据为输出,将eval_metric(自定义评测函数)设置为“mae”,learning rate设置为0.05,max_depth设置为4,以防止过拟合,silent设置为1,对于n_estimatores参数的选择,给出模型单独两个输出目标最小新氢消耗量目标和最小氢气剩余量目标在测试集上的平均绝对值误差MAE的变化过程,结果如图1,横坐标是树的数目,纵坐标是MAE的值,可以发现在测试集上决策树数目为200时,MAE的值就迅速降到最低,之后基本不变,因此在后面的实验中n_estimatores参数的值设置为200,其余参数均设置为默认值。

      图  1  两种目标在测试集上的MAE变化曲线

      Figure 1.  MAE curves of the two targets on the test set

      本文含有两个目标,因此采用了MultiOutputRegressor()函数,对于每一个目标可以训练出一个回归器,通过检查对应的回归器,可以获取关于目标的信息,目的是训练出多输出的预测模型。

      基于上述参数设置,以最小新氢消耗量和最小氢气剩余量动态数据为模型输出,训练动态多输出预测模型。为了更好地反映预测误差的实际情况,衡量预测值与真实值的偏差,基于XGBoost的动态多输出预测模型的性能本文采用平均绝对值误差MAE和均方根百分误差RMSPE来评估,公式如下:

      其中,n表示样本数目,$ {{\hat y}_i}$${y_i}$分别表示模型输出的预测值和真实值。表4列出了最小新氢消耗量和最小氢气剩余量真实值和模型预测值的其中前5组和后5组数据。

      Real minimum fresh/(Nm3·h-1)Real minimum surplus/(Nm3·h-1)Predictive minimum fresh/(Nm3·h-1)Predictive minimum surplus/(Nm3·h-1)
      55 348.4 100 408.8 55 345.4 100 401.1
      55 112.6 100 115.4 55 111.9 100 119.0
      55 319.2 100 348.0 55 312.3 100 336.3
      55 142.4 100 369.1 55 150.4 100 366.1
      55 201.7 100 273.6 55 220.4 100 240.9
      $ \vdots $ $ \vdots $ $ \vdots $ $ \vdots $
      55 022.8 100 294.8 55 013.3 100 305.8
      55 260.6 100 443.5 55 263.4 100 445.5
      55 052.8 100 090.4 55 059.0 100 086.9
      55 112.6 100 019.0 55 117.0 100 021.5
      55 052.8 100 042.2 55 064.0 100 047.8

      表 4  最小新氢消耗量和最小氢气剩余量真实值和模型预测值数据

      Table 4.  Real values and model predictive values of the minimum fresh hydrogen consumption and the minimum hydrogen surplus

      为了验证本文提出模型的有效性,采用相同数据集,相同的输入特征和输出,使用隐含层12个节点的标准BP神经网络模型与本文模型进行预测结果对比,表5表6分别显示了基于XGBoost的氢气网络动态多输出预测模型和BP神经网络模型的性能指标结果。包括平均绝对值误差MAE和均方根百分误差RMSPE,从表中可以发现,本文预测模型两个输出目标的MAE值和RMSPE值都远小于BP神经网络模型的MAE值和RMSPE值,并且本文预测模型两个输出目标的RMSPE值都趋于0,可以看出在测试集上的效果很好。

      Performance indexMAERMSPE
      Minimum fresh10.0526211.03038
      Minimum surplus0.000240.00018

      表 5  基于XGBoost的氢气网络动态多输出预测模型性能指标

      Table 5.  Performance indexes of the dynamic multi-output prediction model of the hydrogen network based on XGBoost

      Performance indexMAERMSPE
      Minimum fresh178.43252193.14869
      Minimum surplus0.004370.00282

      表 6  BP神经网络模型性能指标

      Table 6.  Performance indexes of the back propagation neural network model

      图2为基于XGBoost的氢气网络动态多输出预测模型测试集样本的最小新氢消耗量目标和最小氢气剩余量目标的预测误差散点图,从图中可以看出,大部分测试集样本的预测误差很小,样本误差散点聚集在±40~±50之间,只有个别的点偏差较大,同样可以发现,两个目标的预测效果都很不错。

      图  2  测试集样本两种目标的预测误差散点图

      Figure 2.  Scatter diagram of prediction error for the two targets of the test set samples

    • 分别作出模型的5个输入特征与最小新氢消耗量和最小氢气剩余量单独两个输出目标的特征重要度打分如图3所示:

      图  3  两种目标特征重要度得分

      Figure 3.  Feature importance scores of the two targets

      图中,纵坐标表示5个输入特征,f0-f4分别表示反应器1温度、反应器2温度、反应器3温度、反应器4温度以及循环氢量,横坐标表示特征的重要度得分,根据特征重要度打分,可以分辨出特征对于模型来说的重要性。值得注意的是,在最小新氢消耗量目标中,反应器2温度(f1)以及反应器4温度(f3)在所有特征中的得分非常靠前,尤其是反应器4温度的重要度得分最高,而在最小氢气剩余量目标中,反应器1温度(f0)以及反应器4温度(f3)在所有特征中的得分非常靠前,尤其是反应器4温度的重要度得分最高,也就是说,该特征是对最小新氢消耗量目标和最小氢气剩余量目标都有着非常重要影响的特征。在最小新氢消耗量目标中,并未出现循环氢量特征(f4),也就是说循环氢量对于最小新氢消耗量目标并没有影响,而在最小氢气剩余量目标中,反应器2温度(f1)和反应器3温度(f2)的得分比较靠后,也就是说它们对于最小氢气剩余量目标的影响较小。

      两种目标的特征权重数据分别为[0.166 83、0.347 11、0.126 49、0.359 56、0]和[0.358 26、0.065 63、0.062 94、0.396 45、0.116 73],不难发现,特征权重数据与特征重要度得分的结果是一致的,在这些特征中对于模型来说影响最大的是反应器4温度,对于最小新氢消耗量来说,循环氢量没有影响,对于最小氢气剩余量来说,反应器2温度和反应器3温度影响最小。

    • 本文研究了基于XGBoost模型的炼油厂氢气网络动态多输出预测模型。以Aspen HYSYS模拟实际反应过程对实际数据进行补充得到的随实际生产动态环境变化的动态数据为数据源,采用“一种夹点法与超结构法混合的炼油厂氢气网络优化调度方法”[7]对源数据进行处理,最后使用得到的最小新氢消耗量和最小氢气剩余量两种目标的动态数据进行氢气网络动态多输出预测,并对模型性能进行了评估,为了验证模型的有效性,与BP神经网络模型进行了对比,得到了很好的预测效果。最后,本文对模型的特征重要度进行了分析,得出对于模型来说影响最大的特征是反应器4的温度的结论。

      基于XGBoost模型的炼油厂氢气网络动态多输出预测模型可以对不同工况下的实时动态的最小新氢消耗量以及最小氢气剩余量进行准确的预测,能够基于预测结果对氢气网络的合理配置与优化提供指导决策支持,以提高炼油企业的经济效益。

(3)  表(6) 参考文献 (28) 相关文章 (12)

目录

    /

    返回文章