高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于CCF-PLS的通讯系统异常根因分析

    作者简介: 郁 枫(1996-),男,江苏人,硕士生;主要从事故障诊断、因果分析方面的研究。E-mail:yf18@mails.tsinghua.edu.cn;
    通讯作者: 杨帆, yangfan@tsinghua.edu.cn
  • 中图分类号: TP277

Root Cause Analysis of Abnormality in Telecommunication Systems Based on CCF-PLS

    Corresponding author: Fan YANG, yangfan@tsinghua.edu.cn ;
  • CLC number: TP277

  • 摘要: 针对通讯网络升级后出现的系统性能下降问题,提出了一种互相关函数-偏最小二乘(CCF-PLS)方法对系统性能进行监测,并给出导致系统性能下降的根本原因变量。对于大采样间隔且线性特性较强的通讯系统,PLS模型能很好地建立关键性能指标(KPI)与其他观测变量的回归模型。由于观测变量中存在较多与KPI不相关的成分,采用CCF能很好地筛选与KPI强相关的变量,因而可以作为前端处理步骤。在此基础上,结合贡献图方法,CCF-PLS给出了导致系统异常的根本原因。仿真结果显示,本文方法具有良好的应用效果。
  • 图 1  CCF-PLS原理图

    Figure 1.  Schematic diagram of CCF-PLS

    图 2  相关系数热图

    Figure 2.  Cross-correlation heat map

    图 3  MSE-A交叉验证曲线

    Figure 3.  MSE-A plot using cross validation

    图 4  训练数据和预测数据曲线

    Figure 4.  Training data and predicting data plots

    图 5  T2统计量监测曲线

    Figure 5.  T2 statistic plot

    图 6  T2贡献度百分比

    Figure 6.  Contribution percentage using the T2 statistic

    图 7  T2贡献度告警序列

    Figure 7.  Alarm sequences using the T2 contribution plot

    图 8  不使用CCF时T2贡献度百分比

    Figure 8.  Contribution percentage using the T2 statistic without CCF      

    图 9  不使用CCF时T2贡献度告警序列

    Figure 9.  Alarm sequences using the T2 contribution plot without CCF      

    表 1  采用CCF前后根因分析结果对比

    Table 1.  Comparison between root cause analysis of CCF-PLS and PLS

    MethodEvaluated root causePractical root cause
    PLS17,23,28,5518
    CCF-PLS18,44,4718
    下载: 导出CSV

    表 2  采用CCF前后KPI正常数据预测结果对比

    Table 2.  Comparison between KPI prediction results using normal data of CCF-PLS and PLS

    MethodRMSEr
    PLS0.28920.9181
    CCF-PLS0.30490.9107
    下载: 导出CSV
  • [1] LI Z, ZHAO Y J, LIU R, et al. Robust and rapid clustering of KPIs for large-scale anomaly detection[C]// 2018 IEEE/ACM 26th International Symposium on Quality of Service (IWQoS). USA: IEEE, 2018: 1-10.
    [2] 颜光. 偏最小二乘回归在高炉炼铁中的应用[D]. 杭州: 浙江大学, 2018.
    [3] 周东华, 李钢, 李元. 数据驱动的工业过程故障诊断技术[M]. 北京: 科学出版社, 2011: 119-120.
    [4] MACGREGOR J F, KOURTI T. Statistical process control of multivariate processes[J]. Control Engineering Practice, 1995, 3(3): 403-414. doi: 10.1016/0967-0661(95)00014-L
    [5] ALCALA C F, QIN S J. Analysis and generalization of fault diagnosis methods for process monitoring[J]. Journal of Process Control, 2011, 21(3): 322-330. doi: 10.1016/j.jprocont.2010.10.005
    [6] ALCALA C F, QIN S J. Reconstruction-based contribution for process monitoring[J]. Automatica, 2009, 45(7): 1593-1600. doi: 10.1016/j.automatica.2009.02.027
    [7] CHERRY G A, QIN S J. Multiblock principal component analysis based on a combined index for semiconductor fault detection and diagnosis[J]. IEEE Transactions on Semiconductor Manufacturing, 2006, 19(2): 159-172. doi: 10.1109/TSM.2006.873524
    [8] QIN S J, VALLE S, PIOVOSO M J. On unifying multiblock analysis with application to decentralized process monitoring[J]. Journal of Chemometrics, 2001, 15(9): 715-742. doi: 10.1002/cem.667
    [9] LI G, QIN S Z, JI Y D, et al. Total PLS based contribution plots for fault diagnosis[J]. Acta Automatica Sinica, 2009, 35(6): 759-765.
    [10] 罗明英, 王帆, 谭帅, 等. 基于关键变量的OPLS预测方法[J]. 华东理工大学学报(自然科学版), 2016, 42(4): 529-536.
    [11] FU Q, LOU J, LIN Q, et al. Performance issue diagnosis for online service systems[C]//Proceedings of 2012 IEEE 31st Symposium on Reliable Distributed Systems. USA: IEEE, 2012: 273-278.
    [12] BAUER M, THORNHILL N F. A practical method for identifying the propagation path of plant-wide disturbances[J]. Journal of Process Control, 2008, 18(7/8): 707-719.
    [13] LUO C, LOU J G, LIN Q W, et al. Correlating events with time series for incident diagnosis[C]// Proceedings of 20th ACM SigKDD Conference on Knowledge Discovery and Data Mining (SigKDD). USA: ACM, 2014: 1583-1592
    [14] SU Y, ZHAO Y J, XIA W T, et al. CoFlux: Robustly correlating KPIs by fluctuations for service troubleshooting[C]//Proceedings of the International Symposium on Quality of Service (IWQoS). USA: IEEE, 2019: 1-10.
    [15] 彭开香, 马亮, 张凯. 复杂工业过程质量相关的故障检测与诊断技术综述[J]. 自动化学报, 2017, 43(3): 349-365.
    [16] DAYAL B S, MACGREGOR J F. Improved PLS algorithms[J]. Journal of Chemometrics, 1997, 11(1): 73-85. doi: 10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#
    [17] CHOI S W, LEE I B. Multiblock PLS-based localized process diagnosis[J]. Journal of Process Control, 2005, 15(3): 295-306. doi: 10.1016/j.jprocont.2004.06.010
    [18] MACGREGOR J F, JAECKLE C, KIPARISSIDES C, et al. Process monitoring and diagnosis by multiblock PLS methods[J]. AIChE, 1994, 40(5): 826-838. doi: 10.1002/aic.690400509
    [19] YANG F, DUAN P, SHAH S L, et al. Capturing Connectivity and Causality in Complex Industrial Processes[M]. Cham: Springer, 2014: 45-46
  • [1] 肖颖吴梦琪张文清徐志珍夏玮 . 茯苓多糖HPLC指纹图谱与免疫活性的相关分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190629003
    [2] 张习习顾幸生 . 基于集成学习概率神经网络的电机轴承故障诊断. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206001
    [3] 陆炳祥张德祥 . 低次烟叶热解特性及动力学机理函数. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180716007
    [4] 张星崔向伟李宗霖李志敏 . 基于能量循环再生系统酶法生产谷胱甘肽. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190806001
    [5] 伏威袁伟娜 . 一种基于PTS方法降低FBMC系统PAPR的新方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180409003
    [6] 金艳张永红宋兴福连伟何化于建国 . 耐盐菌MBR系统处理页岩气采出水性能及膜污染特性. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190606001
    [7] 于中宝邵方明 . 并行系统中排列图的可靠性近似算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180531001
    [8] 汪迪李芳菲许思遥刘昌洪 . 针对信息物理系统线性欺诈攻击的水印加密策略. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20191016001
    [9] 潘斌翁涛杨家鹏安琦 . 汽车发动机皮带系统臂式张紧轮力学性能研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190114006
    [10] 翁童袁伟娜 . 一种基于SPSO算法降低FBMC系统PAPR的新方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190731002
    [11] 殷飞宇金晶王行愚 . 基于多相关性的导联前向搜索算法用于运动想象分类. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190901002
    [12] 高源安琦 . 轴承座同心度误差对深沟球轴承-转子系统振动性能的影响. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180415001
    [13] 齐莉莉刘济 . 基于改进CKF算法的一类有色噪声污染的线性观测系统的状态估计. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180427002
    [14] 李岁王元华 . 油田水套加热炉高温空气燃烧瞬态模拟及最小换向时间. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180723008
    [15] 金志超高大启朱昌明王喆 . 基于权重的多视角全局和局部结构风险最小化分类器. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180704001
    [16] 赵剑沈阳曹旭妮 . 基于铁蛋白的溶栓蛋白纳米粒子的构建及活性分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180601001
    [17] 梁培培高淑红姚开亚孙玲玲张志勇赖珅 . 丙三醇对螺旋霉素I发酵的影响及机理分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181228001
    [18] 戴金东艾佳莉孙巍 . Belousov-Zhabotinsky反应斑图形成的图灵不稳定分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20191203006
    [19] 陈兰萍牛玉刚 . 基于多代理的微电网分区分布式最优潮流分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190523004
    [20] 代正华孟凯郭庆华许建良王辅臣 . 基于双色法油浆火焰温度场和碳烟浓度场分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190226005
  • 加载中
图(9)表(2)
计量
  • 文章访问数:  36
  • HTML全文浏览量:  35
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-11-28
  • 网络出版日期:  2020-06-23

基于CCF-PLS的通讯系统异常根因分析

    作者简介:郁 枫(1996-),男,江苏人,硕士生;主要从事故障诊断、因果分析方面的研究。E-mail:yf18@mails.tsinghua.edu.cn
    通讯作者: 杨帆, yangfan@tsinghua.edu.cn
  • 清华大学自动化系,北京 100084

摘要: 针对通讯网络升级后出现的系统性能下降问题,提出了一种互相关函数-偏最小二乘(CCF-PLS)方法对系统性能进行监测,并给出导致系统性能下降的根本原因变量。对于大采样间隔且线性特性较强的通讯系统,PLS模型能很好地建立关键性能指标(KPI)与其他观测变量的回归模型。由于观测变量中存在较多与KPI不相关的成分,采用CCF能很好地筛选与KPI强相关的变量,因而可以作为前端处理步骤。在此基础上,结合贡献图方法,CCF-PLS给出了导致系统异常的根本原因。仿真结果显示,本文方法具有良好的应用效果。

English Abstract

  • 在通讯网络的运行维护过程中,技术人员通常需要监控大量的系统性能数据。为了提高监控效率,基于关键性能指标(KPI)的监控方法通过反映系统运行的整体运行情况来辅助运行维护人员进行合理判断,以保证系统的可靠运行。由于KPI指标的异常通常反映着相关服务的异常(如服务器宕机、网络负载过大等)[1],因此对于KPI变量的监控显得尤为重要。同时,随着技术的不断发展,通讯网络将不可避免地进行升级。面对升级后可能出现的关键性能指标性能下降的异常问题,技术人员需要及时找到导致问题出现的根本原因。由于存在着大量的监测变量,要实现对所有变量的逐个排查是不现实的,因此,在对关键性能指标进行监控的同时,仍然需要实现对根本原因变量的自动检测,使得技术人员能够根据系统自动检测的结果进行进一步分析,从而得到真正的原因变量,保证通讯网络的平稳运行。

    偏最小二乘(PLS)的思想是建立从自变量到因变量的回归方程[2],当研究需要关注于过程变量和质量变量之间的关系时,则应该建立质量变量与过程变量间的PLS模型[3]。这与通讯网络的关注重点即KPI与其他变量之间的关系是类似的,因而对于此类通讯网络问题可以考虑使用PLS建模,得到KPI的监测模型。

    基于PLS模型的根因检测方法主要基于贡献图[4],贡献较大的变量可能是导致故障的根本原因。文献[5]给出了贡献度的不同定义,并将基于贡献图的方法大体上分为3类:广义贡献分解[5](GDC)、重构贡献分解[6](RBC)、对角贡献分解[7-8](DC)。通过计算各个变量的贡献度,能够检测出导致异常情况的主要变量。

    然而,PLS模型没有解决过程变量中含有与质量变量变化不相关成分的问题[9],显然与质量无关的过程变量会导致模型分析结果的不准确[10]。由于通讯网络监控了大量的性能数据,与KPI变量无关特别是无因果关系的变量将会严重影响数学模型的可解释性,从而降低分析结果的准确性。一方面,以交叉验证准则为代表的PLS参数选择方法更注重拟合结果的精确度而忽略了变量间关系对数学模型合理性的探讨,有利于拟合的无关变量也可能在数学模型建立过程中有较大的作用;另一方面,发生在无关变量上且幅值较大的故障将会在贡献度分析过程带来较高的占比,从而导致根因变量的误判。

    面对无关变量对分析结果带来的影响,在通讯网络的性能评估时,常常首先确立代表KPI原因的变量集[11]。互相关函数(CCF)[12]通过计算不同延时下的互相关系数,得到与质量变量相关性较强的过程变量,可以被认为是因果分析的一种近似,因而可以用来筛选变量。文献[13]利用互相关函数给出了性能数据与事件数据的相关系数以及相应时延,得出了事件与变量间的相互影响关系。类似的,文献[14]给出了性能数据波动序列的相关系数及相应时延,得到了变量间相互的影响关系。然而,上述文献仅能给出关系模型,虽然可以依据关系模型进行故障原因推断,但并没有对KPI的数学模型进行有效分析,无法从预测性能的角度对KPI变量进行实时监控。

    本文从通讯网络的实际需求出发,将偏最小二乘法引入KPI变量的监控过程,针对通讯网络性能数据体量大的特点,改进传统的偏最小二乘方法,利用互相关函数作为前端处理部分,在偏最小二乘的基础上,结合贡献图方法,得到异常情况的根因变量。

    • 假设一个系统有m个过程变量和p个质量变量,对这个系统进行n次采样,则可以得到输入变量矩阵${{X}}$${{X}} = \left[ {{{{x}}_1},{{{x}}_2},...,{{{x}}_{{m}}}} \right] \in {{\bf{R}}^{n \times m}}$)和输出变量矩阵${{Y}}$${{Y}} = \left[ {{{{y}}_1},{{{y}}_2},...,{{{y}}_{{p}}}} \right] \in {{\bf{R}}^{n \times p}}$),PLS方法可以将${{X}}$${{Y}}$投影到一个由少量潜变量所张成的低维空间中[15],从而使得主元变量能很好地代表输入变量,也能很好地解释输出变量,具体表达式如式(1)所示:

      式中:${{T}} = \left[ {{{{t}}_1},{{{t}}_2},...,{{{t}}_{{A}}}} \right] \in {{\bf{R}}^{n \times A}}$为得分矩阵;${{P}} = \left[ {{{{p}}_1},{{{p}}_2},..., {{{p}}_{{A}}}} \right] \in {{\bf{R}}^{m \times A}}$${{Q}} = \left[ {{{{q}}_1},{{{q}}_2},...,{{{q}}_{{A}}}} \right] \in {{\bf{R}}^{m \times A}}$分别为${{X}}$${{Y}}$的载荷矩阵;${{E}}$${{F}}$分别为${{X}}$${{Y}}$的残差矩阵;A为PLS模型的主元个数,可以由交叉验证确定。

      引入权重矩阵${{R}} = \left[ {{{{r}}_1},{{{r}}_2},...,{{{r}}_{{A}}}} \right] \in {{\bf{R}}^{m \times A}}$使得${{T}} = {{XR}}$,可以得到${{{P}}^{\rm{T}}}{{R}} = {{{R}}^{\rm{T}}}{{P}}$,则对${{Y}}$的预测模型可以由${{X}}$得到$\widehat {{Y}} = {{XR}}{{{Q}}^{\rm{T}}}$

      PLS模型最常用的求解方法为非线性最小二乘迭代算法,文献[16]给出了PLS模型的一般代码。

      PLS模型应用于过程监控时通常是以${T^2}$统计量和$Q$统计量作为监测指标。假设观测到一个新的观测向量${{x}}$,则新样本的得分向量和残差向量如式(2)所示:

      构造${T^2}$统计量和$Q$统计量如式(3)所示:

      ${T^2}$统计量和$Q$统计量的控制限[17]如式(4)所示:

      其中:$S$是样本$Q$统计量的方差;$\mu $是样本$Q$统计量的均值;n为样本个数;$\alpha $表示置信水平;${F_{A,n - A,\alpha }}$${\chi ^2}_{2{\mu ^2}/S,\alpha }$分别表示相应自由度下的F分布和卡方分布。

      可以认为,如果${T^2}$统计量超过了控制限,则发生了与质量相关的故障,如果$Q$统计量超过了控制限,则发生了与质量变量无关的故障[18]

    • ${T^2}$统计量和Q统计量的监控虽然可以判别是否发生异常,但无法给出故障发生的根源。贡献图方法通过计算各变量的贡献率来找出引起异常的根源,在根因识别领域得到了广泛的应用。

      对于具有二次型${\rm{Index}}\left( {{x}} \right) = {{{x}}^{\rm{T}}}{{Mx}}$的监控统计量,文献[5]给出3种贡献度定义,如式(5)所示:

      其中:$i$表示第$i$个变量;${{{\xi }}_i} = {\left[ {0,0,..,1,0,...,0} \right]^{\rm{T}}}$表示$m$阶单位矩阵的第$i$列,且有$0 \leqslant \beta \leqslant 1$M为二次型监控指标的一般形式。

      在以上3类贡献图中,DC并没有考虑变量间的相关性,完全等价于单变量贡献图。GDC方法不能很好地解决故障在回路间传播的问题,这会导致大量变量都具有较高的贡献度,而RBC方法能很好地减轻这种现象,因而本文采用RBC方法。

      此外,如果要实现对各个贡献度的监测,则可以将每个贡献度除以期望,以得到统一的控制限${\chi ^2}_{1,\alpha }$。各相对贡献度如式(6)所示:

      在进行根因分析的过程中,可以给出一段时间内各变量的单独告警序列以及总贡献度百分比,这样可以根据对象特点,从总体贡献程度和超出控制限的先后顺序两个角度来辅助技术人员进行根因分析。

    • 为尽可能地满足PLS模型的输入变量与输出变量相关的要求,可以通过互相关分析方法给出所有观测变量中相关性较强的变量作为PLS模型的输入变量。

      CCF给出了考虑时延后的两个时间序列的相关程度[19]。考虑两个统计序列${a_i}$${a_j}$,引入时延$l \in {\bf{Z}}$$\left| l \right| \leqslant {l_{\max }}$,则可以计算不同时延下的一系列相关系数${\rho _{{a_i}{a_j}}}\left( l \right)$

      其中:$k$是两个统计序列的长度;${S_{{a_i}}}$${S_{{a_j}}}$分别表示${a_i}$${a_j}$的标准差;${\mu _{{a_i}}}$${\mu _{{a_j}}}$分别表示${a_i}$${a_j}$的均值。对于不同时延下的相关系数${\rho _{{a_i}{a_j}}}\left( l \right)$,找到绝对值最大的相关系数${\rho _{{a_i}{a_j}}}\left( {{l_{ij}}} \right) = \max {\rho _{{a_i}{a_j}}}\left( l \right)$。设置一定的阈值${\rho _0}$以找到与KPI强相关的观测变量。

      相关系数的阈值可以通过$t$统计量检验的方式进行确定。构造$t$统计量如式(8)所示,在给定置信水平的情况下,即可计算相关系数的阈值。

    • CCF很好地满足了PLS模型的输入变量与输出变量相关性问题,因而可以作为PLS模型的前端处理过程。本文提出的CCF-PLS方法原理如图1所示。

      图  1  CCF-PLS原理图

      Figure 1.  Schematic diagram of CCF-PLS

      在离线阶段,通过CCF方法筛选出与KPI变量存在相关关系的变量以建立更加精确的PLS模型。需要注意的是,系统内可能存在多个超过相关性阈值的变量,此时可以选取前E%(E为根据经验选取的最大相关变量百分比)的监测变量以减少系统的存储量,一般可以取60%~80%。在线监控时,利用学习到的PLS模型对系统进行性能监控,绘制预测值曲线与实际值曲线,并且实时监控相应的性能指标。当性能下降时,采用贡献图分析,绘制一定时间内的告警序列,计算贡献度百分比。根据贡献度的大小以及报警时间的先后综合判断根因变量。

    • 需要注意的是,CCF-PLS方法仅仅是在PLS方法的基础上采用CCF作为筛选变量的前端处理部分,而这样的处理在通讯网络的分析中是必须的。一方面,通讯系统中性能数据体量大,筛选后的变量能有效降低性能监控时的数据存储量;另一方面,由于CCF引入的时延特性可以被认为是因果分析的一种近似处理,将CCF应用于变量筛选过程,提高了PLS数学模型建立时的可解释性,同时,也减轻了无关变量对根因分析造成的不利影响。

    • 实验数据采用某通讯公司基站采集的真实数据,共有1个KPI变量、201个待观测变量,观测数据采样间隔为15 min,较大的采样间隔满足了PLS模型静态特性的要求,正常运行状态下共采集10 d的数据,升级后共采集6 d数据,数据长度为1 536。

      实际采集中,某些观测数据存在大量缺失的情况,仿真中去除这些观测变量,共得到92个观测变量序列和1个KPI序列。

      由专家经验可知,系统存在两种模式:6:45之前为“闲时”,6:45之后为“忙时”,考虑到“闲时”系统可能未充分运行,并不能用PLS模型表示,故本文仅采用“忙时”数据。

      实际仿真数据为92个输入变量,1个输出变量;升级前共680个数据,升级后共408个数据。

    • 采用CCF对实验数据进行分析,得到各变量之间的互相关系数,相关系数热图如图2所示,其中时延为10个采样时刻。本文仅关注KPI和其他变量的相关关系,因此热图种的第1行或第1列是用户真正关心的。计算得出,89/92的变量超过了相关性阈值,由此也可以看出,系统具有较强的线性特性。本文选取相关系数前65%的变量作为PLS模型的输入,得到60个输入变量。为方便进行后续比较,60个输入变量的序号仍采用原92个变量中的索引号。

      图  2  相关系数热图

      Figure 2.  Cross-correlation heat map

    • PLS建模最重要的是选取主元个数A,本文采取交叉验证的方式选取主元个数,如图3所示。选取均方误差(MSE)下降趋缓时刻的主元个数作为实际建模的主元个数,本文选取为14。

      图  3  MSE-A交叉验证曲线

      Figure 3.  MSE-A plot using cross validation

      建模时采用升级前70%数据作为训练数据,对升级前后所有数据进行预测,结果如图4所示。可以看出,PLS模型对升级前数据有很好的拟合效果,用作预测的剩余30%升级前数据也能和实际曲线较好地拟合,而升级后预测数据则与实际数据存在明显偏差,说明系统升级伴随了性能的下降。

      图  4  训练数据和预测数据曲线

      Figure 4.  Training data and predicting data plots

      本文考虑与KPI相关的异常情况,所以只给出了$ {T}^{2} $统计量的检测曲线,如图5所示。从图5可以看出,升级后$ {T}^{2} $统计量明显超过控制限,这也提示着系统出现了异常情况。

      图  5  T2统计量监测曲线

      Figure 5.  T2 statistic plot

      性能下降后1 d内各变量累加贡献度所占百分比如图6所示。可以看出,18号变量占据了最大部分,为8.45%,排名前3的变量分别为18、44、47号变量。

      图  6  T2贡献度百分比

      Figure 6.  Contribution percentage using the T2 statistic

      考虑到系统最先发出告警的变量也很有可能是根本原因变量,故应该综合考虑贡献度告警序列,如图7所示。从图7可以看出,最先发出告警的变量序号分别为6、18、29、39、44、47号变量,综合考虑累计贡献率和贡献度报警序列,CCF-PLS系统将给出的根本原因为18、44、47号变量。

      图  7  T2贡献度告警序列

      Figure 7.  Alarm sequences using the T2 contribution plot

      由专家经验判断可知,实际的根本原因为18号变量,CCF-PLS方法很好地找到了系统性能下降的根本原因。需要注意的是,其他变量所占贡献比较高的原因可能是18号变量发生故障后导致了故障的传播,而采样时间为15 min的情况下,某些变量已经在一个采样间隔内受到了影响,故也较早地发出了告警。

    • 将CCF-PLS方法与传统PLS方法进行对比。传统PLS方法采用了文献[16]提供的PLS代码,根因分析时采用了文献[6]所述的RBC方法。为便于比较,传统PLS的主元个数选择与CCF-PLS方法一致。

      图8示出了不采用CCF时各变量累计贡献率百分比,可以看出,累计贡献率最大的为23号变量,占3.56%,前3名分别为23、17、55号变量,并没有显示到根因变量18号变量。图9示出了不采用CCF时各变量贡献度的告警序列,可以看出最先报警的为28号告警序列,也没有显示根因变量18号变量,且累计贡献率最大的变量和最先告警的变量并未存在交集,这样的不一致将会导致技术人员的困惑。

      图  8  不使用CCF时T2贡献度百分比

      Figure 8.  Contribution percentage using the T2 statistic without CCF      

      图  9  不使用CCF时T2贡献度告警序列

      Figure 9.  Alarm sequences using the T2 contribution plot without CCF      

      表1给出了采用CCF前后PLS根因结果的对比情况,可以看出,采用CCF后PLS根因分析方法能够得到正确的根因变量,而传统的PLS方法得到的根因变量经专家经验证实完全与KPI变量无关,这验证了CCF-PLS方法的合理性。

      MethodEvaluated root causePractical root cause
      PLS17,23,28,5518
      CCF-PLS18,44,4718

      表 1  采用CCF前后根因分析结果对比

      Table 1.  Comparison between root cause analysis of CCF-PLS and PLS

      表2给出CCF-PLS和PLS方法在正常数据集上进行测试的预测结果对比,评价指标为均方误差(RMSE)和相关系数(r),可以看出,CCF-PLS方法由于进行过变量筛选而在拟合精度上稍劣于PLS方法,但是预测性能降低情况并不明显。结合表1情况可知,CCF-PLS方法在保持一定拟合精度的情况下提高了数学模型的可解释性,使得根因分析的方法更具备可靠性,因而更适合于通讯网络的KPI数据监控以及异常根因分析。

      MethodRMSEr
      PLS0.28920.9181
      CCF-PLS0.30490.9107

      表 2  采用CCF前后KPI正常数据预测结果对比

      Table 2.  Comparison between KPI prediction results using normal data of CCF-PLS and PLS

    • 本文改进了传统的PLS根因分析方法,将CCF作为PLS分析的前端处理步骤,通过仿真分析,验证了其在通讯网络应用的合理性。本文仿真对象具有较强的线性特性和静态特性,对非线性以及动态特性明显的通讯系统的根因分析将是下一步重点研究的内容。

(9)  表(2) 参考文献 (19) 相关文章 (20)

目录

    /

    返回文章