高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于小样本深度学习的通风柜橱窗状态识别方法

    作者简介: 马振伟(1995-),男,上海人,硕士生,主要研究方向为计算机视觉。E-mail:960901625@qq.com;
    通讯作者: 袁玉波, ybyuan@ecust.edu.cn
  • 中图分类号: TP391

Fume Hood Window State Recognition Method Based on Few Shot Deep Learning

    Corresponding author: Yubo YUAN, ybyuan@ecust.edu.cn
  • CLC number: TP391

  • 摘要: 在实验人员离开化学实验室时,未及时关闭通风柜橱窗会造成严重的安全隐患以及能源浪费,且目前缺乏有效的信息化管理手段。本文利用计算机视觉技术非接触性、可扩展性强的优势,提出了基于小样本深度学习的通风柜橱窗状态识别方法。首先对监控视频进行预处理,基于运动特征和几何先验提取出通风柜橱窗区域;然后对改进的多尺度空洞原型网络进行训练,准确识别出通风柜橱窗的状态。在实际应用中,结合改进的人员检测算法有效减少了识别次数。经实验验证,该方法的准确率较卷积神经网络提升了10.95%,并且对光照变化的鲁棒程度较高,可有效满足化学实验室的日常安全管理要求。
  • 图 1  通风柜橱窗安全管理平台系统架构

    Figure 1.  System architecture of fume hood safety management platform

    图 2  多尺度空洞原型网络架构

    Figure 2.  System framework of DProtoNet

    图 3  样本实例预测结果展示

    Figure 3.  Demonstration of sample prediction results

    图 4  不同指数因子的光照变换

    Figure 4.  Illumination transformation with different factors

    表 1  不同方法的准确率对比

    Table 1.  Accuracy of different methods

    AlgorithmAccuracy/%
    SVMRandomForest
    LBP51.3069.90
    PCA57.1064.76
    ColorHist75.9447.56
    HOG57.1082.12
    CNN88.34
    ProtoNet97.32
    DProtoNet99.29
    下载: 导出CSV

    表 2  光照变化下的准确率对比

    Table 2.  Accuracy under illumination changes

    AlgorithmAccuracy/%
    SVMRandomForest
    LBP50.9460.69
    PCA56.2950.77
    ColorHist50.2152.32
    HOG60.1972.56
    CNN77.25
    ProtoNet94.43
    DProtoNet95.74
    下载: 导出CSV

    表 3  不同空洞率组合下的准确率

    Table 3.  Accuracy under different dilation rate combination

    Dilation rateAccuracy/%
    1,298.25
    1,2,399.29
    1,2,3,498.90
    下载: 导出CSV
  • [1] 王燕, 王月荣, 熊焰, 等. 化学实验室安全管理体系的建设和实践[J]. 化学高等教育, 2018, 162(4): 75-78.
    [2] LI Z, GUO G, REN S. The detection system of an auto front left door electric window switch[C]//Proceedings of 2012 International Conference on Electronic Information and Electrical Engineering. China: Atlantis Press, 2012: 271-274.
    [3] 孙宾, 王茂森, 戴劲松, 等. 基于CAN总线的家用门窗自动开关控制系统[J]. 兵器装备工程学报, 2011, 32(3): 82-86. doi: 10.3969/j.issn.1006-0707.2011.03.027
    [4] 金晓磊, 潘鹏. 机器人视觉的电梯轿厢门状态识别系统[J]. 单片机与嵌入式系统应用, 2018, 18(4): 28-31.
    [5] 丁四海, 刘玉雪, 路林吉. 数字图像处理技术在电气控制柜开关状态识别中的应用[J]. 微型电脑应用, 2013, 30(5): 39-40. doi: 10.3969/j.issn.1007-757X.2013.05.012
    [6] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2009: 248-255.
    [7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. USA: IEEE, 2012: 1097-1105.
    [8] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. arXiv.org, 2014-09-04[2019-04-01], arXiv.org/abs/1409.1556.
    [9] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2015: 1-9.
    [10] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2016: 770-778.
    [11] ZEILER M D, TAYLOR G W, FERGUS R. Adaptive deconvolutional networks for mid and high level feature learning[C]//2011 International Conference on Computer Vision. Spain: IEEE, 2011: 2018-2025.
    [12] HOWARD A G, ZHU M, CHEN B, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL]. arXiv.org, 2017-04-17[2019-04-01]. arXiv/abs/1704.04861.
    [13] YU F, KOLTUN V. Multi-Scale Context Aggregation by Dilated Convolutions[J]. arXiv.org, 2015-11-23[2019-04-01]. arXiv/abs/1511.07122.
    [14] KOCH G, ZEMEL R, SALAKHUTDIN R. Siamese neural networks for one-shot image recognition[C]//Proceedings of the International Conference on Machine Learning. France: ACM, 2015: 6-36.
    [15] VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]//Proceedings of the Advances in Neural Information Processing Systems. Spain: MIT Press, 2016: 3630-3638.
    [16] SNELL J, SWERSKY K, ZEMEL R. Prototypical networks for few-shot learning[C]//Proceedings of the Advances in Neural Information Processing Systems. USA: MIT Press, 2017: 4077-4087.
    [17] AHAD M A R, TAN J K, KIM H, et al. Motion history image: Its variants and applications[J]. Machine Vision and Applications, 2012, 23(2): 255-281. doi: 10.1007/s00138-010-0298-4
    [18] SUZUKI S, BE K. Topological structural analysis of digitized binary images by border following[J]. Computer Vision Graphics and Image Processing, 1985, 30(1): 32-46. doi: 10.1016/0734-189X(85)90016-7
    [19] REDMON J, FARHADI A. YOLOv3: An incremental improvement[EB/OL]. arXiv.org, 2018-04-08[2019-04-01]. arXiv/abs/1804.02767.
    [20] 张雪芹, 陈嘉豪, 诸葛晶晶, 等. 基于深度学习的快速植物图像识别[J]. 华东理工大学学报(自然科学版), 2018, 44(06): 105-113.
  • [1] 张雪芹魏一凡 . 基于深度学习的驾驶场景关键目标检测与提取. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181023002
    [2] 孙运筑修光利段玉森伏晴艳 . 上海市淀山湖区域灰霾天大气颗粒物中碳组分的污染特征. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180412007
    [3] 张习习顾幸生 . 基于集成学习概率神经网络的电机轴承故障诊断. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206001
    [4] 魏江平林家骏陈宁 . 多特征非接触式测谎技术. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190619002
    [5] 宋振振陈兰岚娄晓光 . 基于时序卷积网络的情感识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190508001
    [6] 张逸秋吴诗勇吴幼青黄胜高晋生 . 城市污泥水热液化过程及特征. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190107001
    [7] 王德勋虞慧群范贵生 . 基于深度学习的面部动作单元识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190107003
    [8] 魏琛陈兰岚张傲 . 基于集成卷积神经网络的脑电情感识别. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180416004
    [9] 陈鹏罗娜 . 基于竞争机制差分进化算法的无分流换热网络优化. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181015004
    [10] 赵鸿山范贵生虞慧群 . 基于归一化文档频率的文本分类特征选择方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180914005
    [11] 王宁曹萃文 . 基于XGBoost模型的炼油厂氢气网络动态多输出预测模型. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.3080
    [12] 赖兆林冯翔虞慧群 . 基于逆向学习行为粒子群算法的云计算大规模任务调度. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190218001
    [13] 陈剑挺叶贞成程辉 . 基于p阶Welsch损失的鲁棒极限学习机. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181209001
    [14] 解冰朱宏擎 . 一种基于选择性卷积特征和最大后验高斯混合模型的细粒度图像分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180603001
  • 加载中
图(4)表(3)
计量
  • 文章访问数:  4599
  • HTML全文浏览量:  1109
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-04-12
  • 网络出版日期:  2019-10-15

基于小样本深度学习的通风柜橱窗状态识别方法

    作者简介:马振伟(1995-),男,上海人,硕士生,主要研究方向为计算机视觉。E-mail:960901625@qq.com
    通讯作者: 袁玉波, ybyuan@ecust.edu.cn
  • 1. 华东理工大学信息科学与工程学院,上海 200237
  • 2. 华东师范大学计算机科学与软件工程学院,上海 200062

摘要: 在实验人员离开化学实验室时,未及时关闭通风柜橱窗会造成严重的安全隐患以及能源浪费,且目前缺乏有效的信息化管理手段。本文利用计算机视觉技术非接触性、可扩展性强的优势,提出了基于小样本深度学习的通风柜橱窗状态识别方法。首先对监控视频进行预处理,基于运动特征和几何先验提取出通风柜橱窗区域;然后对改进的多尺度空洞原型网络进行训练,准确识别出通风柜橱窗的状态。在实际应用中,结合改进的人员检测算法有效减少了识别次数。经实验验证,该方法的准确率较卷积神经网络提升了10.95%,并且对光照变化的鲁棒程度较高,可有效满足化学实验室的日常安全管理要求。

English Abstract

  • 化学实验室的安全管理一直是广大科研机构关注的重点难题。近年来发生的一些安全事故的主要原因之一是实验室人员离开实验室或者下班后未关闭通风柜橱窗,导致一些长时间加热的设备过热,进而造成火灾事故,轻则造成设备财产的损失,重则导致人员的伤亡[1]。同时由于通风柜橱窗内通风排风系统均按照通风分压传感器进行设备的开启和关闭,橱窗不按照规定关闭也造成了大量的能源浪费。因此,对于通风柜橱窗的安全管理是实验室安全的重要一环,准确地识别通风柜橱窗的开闭状态,能够有效杜绝火灾等事故发生并减少能源浪费。

    目前对通风柜橱窗状态识别的研究较少,较为相关的研究是关于门窗状态的检测,主要是通过检测传感器及各类电子控制系统来进行。文献[2]提出了一种用于检测汽车车窗开闭的系统,通过可编程逻辑单元以及RS232通讯接口对车窗开闭状态进行检测。文献[3]设计了一种家用门窗自动开关控制系统,利用CAN总线作为通信总线与PC机进行门窗开关状态信息的传递。该类方法虽然识别准确率较高,技术较为成熟,但不适用于通风柜橱窗安全管理,主要有以下两方面的原因:(1)需要对现有通风柜橱窗进行改造来安装上述电子控制系统,安装难度较高[4],并且化学实验设备有安全要求,肆意改造会造成潜在的安全风险。(2)无效识别次数过多。使用电子控制系统虽然能够识别橱窗状态,但当实验人员在场时都是无效识别,故需要增加额外的人员检测传感器等,使问题复杂化。

    随着人工智能的快速发展,将计算机视觉技术用于多种目标的开闭识别已成为可能。文献[5]提出了基于图像处理的电气控制柜开关识别系统,对电气柜图像采用阴影去除、二值化等预处理方法结合方向灰度特征进行开关状态识别。文献[4]设计了基于视觉的电梯轿厢门状态识别系统,在嵌入式Linux系统上实现图像采集、图像预处理,采用基于Hough线变换算法来实现开关门状态监测。与电子控制系统相比,基于计算机视觉的橱窗开闭识别具有三方面的优势:(1)非接触性。无需改造现有通风柜橱窗,因此不会产生橱窗自身的安全隐患。(2)扩展性强。支持通过不同算法实现通风柜橱窗状态识别和人员检测,无需装配新的传感器硬件,并且方便扩充新功能。(3)可追溯性。通风柜橱窗如未关闭,可以通过截图保存实时状态,作为事故追责的有力证据。此外,由于视频监控设备的普及,利用实验室现有的监控设备,可以进一步降低经济成本,避免重复投资。然而,由于通风柜橱窗中实验设备类别较多,因此很难设计出类似文献[4]的有效人工特征。

    卷积神经网络能够自动从大量数据中学习到有用的特征表示,有效地解决了传统方法的弊端,但该方法需要大量的图像及对应的标注,与通用目标识别数据集如ImageNet[6]的目标类别(人,动物,车等)不同,通风柜橱窗一般存在于大学及研究机构,并且一个机构中的橱窗数量有限,若构建一个有1万张图像以上规模的通风柜橱窗数据集需耗费大量人力。因此,本文针对现有电子控制系统改造成本高、橱窗特征难以提取和橱窗数据样本量少等问题,提出了一种基于小样本学习的通风柜橱窗状态识别方法。利用视觉运动特征提取橱窗区域,然后训练改进的多尺度空洞原型网络,用于通风柜橱窗状态的准确识别。同时,设计了橱窗状态识别的平台架构,在中科院上海有机所进行了应用部署与识别优化。

    • 自2012年AlexNet[7]在ImageNet数据集中取得巨大成功后,卷积神经网络获得了大量的关注与研究。文献[8]探索了卷积神经网络中深度和性能之间的关系,通过反复地堆叠3×3小型卷积核来获得增大的感受野,构建了16层用于分类的VGGNet。文献[9]基于稀疏结构提出了InceptionNet,利用1×1卷积核自然地将同一个空间位置中相关性很高的特征结合起来,并通过22层的深度超越了VGGNet。文献[10]提出了152层深的ResNet,采用跳跃连接构建了残差块,解决了层数过深导致的梯度消失问题。

      卷积神经网络除了在网络层数上的改进之外,研究者对于卷积运算进行了多种改进来适应不同的任务。文献[11]提出了转置卷积运算,将传统卷积进行转置得到了可用于上采样运算的卷积核,取代了传统上采样中使用的插值方法,能很好地运用于场景分割、生成模型等领域。文献[12]提出了一种基于深度可分卷积的MobileNet,通过将传统卷积分解为深度卷积和1×1卷积的方式,大幅降低了卷积模型中的参数量和计算量,在不降低模型性能的前提下实现效率提升。文献[13]提出了一种用于图像分割的空洞卷积网络,相对于传统卷积神经网络对图像进行先卷积后池化所导致的信息损失问题,空洞卷积通过对卷积核进行扩张,在增大感受野的同时保证了信息的完整性,提取出的特征更为鲁棒。

    • 深度学习的成功很大程度上归功于大量有标签的数据集。然而许多实际任务中,可用的标签样本数量有限,因而研究者们利用小规模的样本数量开展目标任务的深度学习。样本数量的规模与任务相对应,一般在10至102数量级。

      文献[14]提出了一种用于小样本学习的孪生网络,通过组合方式构造不同的成对样本对孪生网络进行训练,在最上层通过样本对的距离判断它们是否属于同一个类,并产生对应的概率分布。相比孪生网络,文献[15]提出了一个新的匹配网络,为支持集和查询集构建了不同的编码器,最终分类器的输出是支持集和查询集之间预测值的加权求和。该方法在匹配网络建模过程中使用了记忆和注意力机制,使模型的训练速度加快,并且符合传统机器学习中训练和测试过程一致的原则。匹配网络在框架设计以及速度上优于孪生网络,并取得了更高的准确率。文献[16]对匹配网络进行改进,提出了原型网络,其核心在于计算支持集在嵌入空间中的原型,然后通过度量测试图像到原型的距离来进行分类。原型网络选用欧式距离来代替匹配网络中的余弦距离,取得了显著优于匹配网络的实验结果。

    • 通风柜橱窗状态识别的任务定义如下:对于每一间实验室,若有实验人员在场则不需要对橱窗的开闭状态进行识别;若实验人员离开超过t分钟,则对该实验室中的第$1,2,\cdots,{\rm{n}}$个通风柜橱窗的状态进行识别,对未按规定关闭到位的橱窗进行拍照存档及通知警报。

    • 通常一个研究机构里有许多实验室,并且已经部署了许多视频监控设备。考虑到监控设备的可重用性以及降低监控设备硬件上构建的复杂性,本文将通风柜橱窗安全管理系统构建在云平台上,监控端只需发送抓取的画面到云平台上即可进行识别。采用这样的架构可以方便地适配各类已安装的监控设备,大大提升了本文方案的普及能力。

      本文设计的通风柜橱窗状态识别平台系统架构如图1所示。平台分为监控端和服务端两部分,监控端的功能是将实时视频流发送到服务端;服务端包括配置阶段和识别阶段,并根据所处阶段执行不同的功能。

      图  1  通风柜橱窗安全管理平台系统架构

      Figure 1.  System architecture of fume hood safety management platform

      实验室监控设备抓取的图像通常不仅包括通风柜橱窗区域,还包括实验台、实验器材等无关区域。这些无关区域会增加输入数据的噪声,影响最终橱窗状态识别的准确率。因此,配置阶段需要对实验室中每个需要进行状态识别的橱窗位置进行提取,为避免人工定位带来的错误与不便,本文利用运动特征与几何先验知识进行实验室通风柜橱窗区域的提取。

      在识别阶段,首先通过改进的人员检测方法判断实验室中是否有人,有人员时无需进行橱窗状态识别,无实验人员时通过小样本深度学习方法对通风柜橱窗的状态进行识别,进而判断是否需要拍照存档并发出警报,该策略可以大量减少识别算法的运行次数,提高服务端的利用率。

    • 本文利用运动特征与几何先验知识对一段时间内的监控视频帧进行分析处理,有效地提取通风柜橱窗区域。提取过程如图1中的Extract window所示,包括提取运动历史图、寻找轮廓以及生成边界矩形。

      首先,视频的运动历史图${H_\tau }\left( {x,y,t} \right)$通过MHI算法[17](Motion History Image)计算得到。MHI通过计算时间段内同一位置的像素变化,将目标运动情况以图像亮度的形式表现出来。${H_\tau }\left( {x,y,t} \right)$由更新函数$D\left( {x,y,t} \right)$计算得出:

      式中:(x,y)为像素点的位置;t为视频帧所在时刻;τ决定了运动停留在运动历史图上的时间;δ是亮度衰减参数。更新函数$D\left( {x,y,t} \right)$使用帧间差作为更新方式:

      其中,${I\left( {x,y,t} \right)}$为第t帧坐标(x,y)处的像素灰度值。

      在提取运动历史图的过程中,起始时刻与终止时刻由系统管理员在配置橱窗区域时设置,以确保提取出的运动区域不受人员运动的干扰。

      得到运动历史图后,需要对其进行图像腐蚀来减少椒盐噪声对轮廓提取的干扰,并通过图像膨胀还原运动历史图的完整性。然后基于边界跟踪算法[18]来寻找运动历史图的外轮廓,对运动历史图进行逐行扫描。若${H_\tau }\left( {x - 1,y,t} \right) = 0,{H_\tau }\left( {x,y,t} \right) = 1$,则该点为外轮廓的起始点;若${H_\tau }\left( {x,y,t} \right) = 1,{H_\tau }\left( {x + 1,y,t} \right) = 0$,则该点为外轮廓的终止点。扫描完后得到由若干坐标点构成的轮廓序列,如图1中的Find contours所示。

      然而,提取的轮廓通常是不规则的,若直接进行橱窗区域提取则会影响后续的橱窗识别精度。基于通风柜橱窗为矩形的几何先验知识,通过经典的Douglas-Peucker压缩算法去除轮廓中次要的点,保留主体形状,计算其最小外接矩形,即为通风柜橱窗区域,如图1中的Window region所示。

    • Yolov3[19]是一种先进的实时目标检测方法,但依然存在漏检和误检情况。本文利用高斯混合前景模型对其进行改进以适用于实验室环境。

      首先,通过高斯混合模型对场景进行前景建模。设{I1,I2,…,It}为任意一个像素点{x,y}从1时刻到t时刻的灰度值,则t时刻像素{x,y}属于背景的概率如下:

      式中:ωk,t为第k个高斯分布的权重;μk,tΣk,t分别为均值和协方差矩阵。通过学习率αωk,tμk,tΣk,t进行更新,α的大小决定了更新的速度。若像素It与背景分布不一致,则为前景点。

      得到运动前景二值图像之后,求取前景部分的直边界矩形并进行裁剪得到待检测的感兴趣区域(ROI),然后利用Yolov3算法在ROI中进行人员检测。

      该改进策略有两点优势:(1)利用运动前景可以限定目标检测的ROI,降低Yolov3错误识别的概率。(2)ROI减小了输入深度网络的图像尺寸,能够提高检测速度,改进后的检测时间${T_{{\rm{ROI}}}} \approx \left( {{S_{{\rm{ROI}}}}/S} \right) \times T$,其中SROI代表ROI的像素数量,S代表原图的像素数量,T代表原图的检测时间。由于人员占据的面积较小,因此可以获得10倍以上的加速效果。

    • 原型网络(ProtoNet)[16]是一种快速、有效的小样本学习方法,通过计算样本与类原型表示的距离,将学习到的距离空间用来分类。本文基于原型网络进行通风柜橱窗状态识别,并根据通风柜橱窗的状态类别对其进行修改。

      在通风柜橱窗数据集中,给定一个由N对橱窗图像及其状态标注所组成的支持集$S = \left\{ {\left( {{x_1},{y_1}} \right), \cdots ,}\right.$$\left.{\left( {{x_N},{y_N}} \right)} \right\} $其中每个${x_i} \in {\bf{R}^{W \times H \times C}}$表示一幅橱窗图像,WHC分别表示图像的宽、高、通道数,对应的yi∈{0,1}代表橱窗状态,0代表关闭状态,1代表开启状态。Sk表示S中所有状态为k的支持样本组成的集合,k∈{0,1}。首先,通过原型网络${f_\emptyset }$计算支持集Sk中所有橱窗图像对应的M维特征表示${f_\emptyset }\left( {{x_i}} \right) \in {\bf{R}^M}$。然后,计算每个Sk的原型ck,公式如下:

      其中,|Sk|表示集合Sk中的样本个数。原型ck的含义是计算所有Sk中样本经过原型网络映射后特征的均值向量。

      得到每个类别的原型后,再给定一个查询集$Q = \left\{ {\left( {{x_1},{y_1}} \right), \ldots ,\left( {{x_N},{y_N}} \right)} \right\}$,通过欧几里得距离$ d\left( {z,z'} \right) =$$ {\left\| {z - z'} \right\|^2}$度量查询样本与其对应状态原型之间的距离,然后基于交叉熵函数计算该查询样本属于每种状态的概率。概率计算公式如下:

      在测试过程中,直接选取最大概率值所对应的状态作为预测结果。在训练过程中,使用随机梯度下降,通过将负对数概率$J\left( \emptyset \right) = - {\rm{lg}}\left( {{p_\emptyset }\left( {y = k{\rm{|}}x} \right)} \right)$最小化来更新原型网络模型,其中k是橱窗图像x的真实标注状态,训练一次的算法过程如下:

      输入:训练集$D = \left\{ {\left( {{x_1},{y_1}} \right), \ldots ,\left( {{x_N},{y_N}} \right)} \right\}$,其中yi∈{0,1}。

      输出:经过一次训练的损失J

      (1) for k in {0,1} do

      (2) 从D中找出所有yi=k的样本构成集合Dk

      (3) 从Dk中不放回地随机抽取NS个样本构成支持集Sk

      (4) 从Dk\Sk中不放回地随机抽取NQ个样本构成查询集Qk

      (5) ${c_k} = \dfrac{1}{{\left| {{S_k}} \right|}}\mathop \sum \limits_{\left( {{x_i},{y_i}} \right) \in {S_k}} {f_\emptyset }\left( {{x_i}} \right)$,即计算每种状态的原型

      (6) end for

      (7) J=0,即初始化损失值

      (8) for k in {0,1} do

      (9) for (x,y) in Qk do

      (10)  $\begin{array}{l}J = J + \dfrac{1}{{2{N_Q}}}\left[ {d\left( {{f_\emptyset }\left( x \right),{c_k}} \right)} \right. + \\{\rm{lg}}\mathop \sum \limits_{k' \in \left\{ {0,1} \right\}} {\rm{exp}}\left. {\left( { - d\left( {{f_\emptyset }\left( x \right),{c_{k'}}} \right)} \right)} \right]\end{array}$,即更新损失值

      (11) end for

      (12) end for

    • 在小样本学习的过程中,首先需要将一幅W×H×C维的橱窗图像转换为一个M维的特征表示,然后才能计算每种状态的原型,因此,转换模型结构的好坏会直接影响到最终的预测效果。相比于直接使用多个全连接层对图像进行特征转换,原型网络使用了全卷积的方式,利用卷积层的权重共享特性大幅减少参数量,加快了检测速度。然而,原型网络是基于手写字符数据集提出的网络模型。手写字符的尺度相对较小,一般在28×28像素左右,而橱窗的尺寸在全高清(1920×1080)分辨率下约为400×300像素。因此,需要对网络结构进行改进以提取出较大尺度图像的特征表示。本文利用空洞卷积(Dilated convolution)[13]来改进传统的卷积方式,能够有效地扩大对图像的感受野,提取更为全局的特征,二维空洞卷积的公式定义如下:

      其中:x(m,n)是输入张量;w(i,j)是一个M×N的过滤器;y(m,n)是经过空洞卷积后得到的张量;参数r表示空洞率,其值越大,对图像的感受野越大。

      本文利用InceptionNet的思想改进ProtoNet,提出了多尺度空洞卷积的原型网络(DProtoNet),通过设置不同的空洞率来得到多尺度的感受野,进一步提高特征的鲁棒性。图2所示为DProtoNet的网络结构。网络前4层是Inception层,每层包括3个不同空洞率的空洞卷积并进行深度连接,后3层为卷积层。在网络的每一层后,依次进行批标准化、Relu非线性激活和步长为2×2的最大池化。网络中的所有卷积核尺寸均为3×3,图像输入尺寸为128×128×3,使用随机梯度下降(SGD)作为训练时的优化算法。

      图  2  多尺度空洞原型网络架构

      Figure 2.  System framework of DProtoNet

    • 实验的硬件环境为Dell T7810,Intel Xeon E5-2630 V4 2.20 GHz,32 GB RAM,显卡为NVIDIA Quadro M4000。实验代码基于Python 3.6实现,小样本学习DProtoNet及对比的卷积神经网络采用开源深度学习框架Pytorch实现,对比的机器学习方法采用开源库opencv与sklearn进行实现,使用集成开发环境Spyder进行编码测试。

    • 本文收集并构建了一个包含300张橱窗图像的数据集且进行了标注。其中橱窗图像采用2.1节中的橱窗区域方法从监控图像中进行定位裁剪得到。状态为开的图像共147张,状态为关的图像共153张。利用水平和垂直翻折对数据集进行增强,将原始数据集扩充为原来的4倍,使用留出法进行交叉验证,随机提取其中的960个样本作为训练集,剩余的240个样本作为测试集。

    • 实验采用分类准确率Accuracy=n'/n来衡量算法的性能,并将本文方法与多种识别分类算法进行比较。其中,n'为测试集中预测结果与真实结果一致的样本个数,n为测试集的样本总个数。分类准确率越高,则算法的性能越好。

    • 为了证明本文算法的有效性,分别与支持向量机、随机森林和卷积神经网络的识别结果进行了比较。由于机器学习算法的性能与特征提取的好坏有很大的关联,因此从纹理、降维、颜色、形状等方面选取了局部二值模式(LBP)、主成分分析(PCA)、颜色直方图(ColorHist)、方向梯度直方图(HOG)作为分类特征进行实验。实验结果如表1所示,本文方法提出的DProtoNet算法通过对训练数据的多轮学习准确率可以达到99.29%,比传统方法中效果最好的HOG结合Randomforest的准确率提高了17.20%,说明通过深度网络学习得到的特征,其鲁棒性要优于传统人工设计的特征;比直接使用卷积神经网络(CNN)的准确率提高了10.95%,说明基于小样本的深度网络学习方式效果显著,适用于本文样本量不足的应用场景;比原始的ProtoNet提高了1.97%,说明多尺度空洞卷积的使用能够提取到不同感受野组成更为鲁棒的特征,取得了更好的实验效果。

      AlgorithmAccuracy/%
      SVMRandomForest
      LBP51.3069.90
      PCA57.1064.76
      ColorHist75.9447.56
      HOG57.1082.12
      CNN88.34
      ProtoNet97.32
      DProtoNet99.29

      表 1  不同方法的准确率对比

      Table 1.  Accuracy of different methods

      图3展示了一些实例样本,包括橱窗不同程度的开、闭情况,以及算法的预测结果。针对前8个实例,方法能够准确识别橱窗的开关状态识别。在橱窗内化学品种类密集、橱窗边缘干扰以及橱窗部分被遮挡情况下,本文方法依然给出正确的结果,鲁棒性很高。本文方法在某些边界条件下会出现误判,如图3中的实例9。在该实例中,橱窗未关闭完全,但出现了关闭状态下的特征域,因此算法基于学习的信息判断橱窗状态为关闭,导致了误判,但是,在数据集以及实际使用过程中,这种情况发生的概率很低,不影响系统的实际应用效果。

      图  3  样本实例预测结果展示

      Figure 3.  Demonstration of sample prediction results

      在实际应用中,光照变化是影响图像算法性能的一个重要因素,为了实现全天候的化学实验橱窗安全管理,需要对不同光照条件下的橱窗图像进行实验。由于采集条件的限制,实验通过对比度变换(H,S,V)=(H,SRandom(α,β),VRandom(α,β))来改变图像的光照情况,先将数据集中的图像的颜色空间从RGB转换到HSV,然后对饱和度S和亮度V通道进行指数运算,指数因子(α,β)为对比度变化范围,Random函数表示随机选取范围中的一个浮点数。在实验中,α设为0.25,β设为4.0。图4展示了不同指数因子设置下的橱窗图像,可以发现,使用该指数因子范围可以覆盖不同时段的橱窗光照状态。

      图  4  不同指数因子的光照变换

      Figure 4.  Illumination transformation with different factors

      实验结果如表2所示,本文提出的DProtoNet方法在不同光照条件下取得了95.74%的准确率,比传统方法中效果最好的HOG结合Randomforest的准确率提高了23.18%;比直接使用卷积神经网络的准确率提高了18.49%,比原始的ProtoNet提高了1.31%。此外,对比同一种方法在表1表2中的准确率,发现本文算法的准确率变化为3.55%,低于HOG集合Randomforest的9.56%和卷积神经网络的11.09%。

      AlgorithmAccuracy/%
      SVMRandomForest
      LBP50.9460.69
      PCA56.2950.77
      ColorHist50.2152.32
      HOG60.1972.56
      CNN77.25
      ProtoNet94.43
      DProtoNet95.74

      表 2  光照变化下的准确率对比

      Table 2.  Accuracy under illumination changes

      此外,针对本文所提出的多尺度空洞网络,本文进行了消融实验,采用4种不同的空洞率组合来验证多尺度空洞率的有效性,如表3所示。从结果中可以看到,多尺度空洞率有效地提高了准确率,但是使用过多的尺度组合的提升效果有限,并且会增加网络参数数量,增加识别时间,因此最终选择1、2、3的空洞率组合作为实际应用。

      Dilation rateAccuracy/%
      1,298.25
      1,2,399.29
      1,2,3,498.90

      表 3  不同空洞率组合下的准确率

      Table 3.  Accuracy under different dilation rate combination

    • 本文针对通风柜橱窗安全管理问题,提出了基于小样本深度学习的橱窗状态识别方法。利用运动特征及几何先验提出了橱窗区域提取算法,避免了无关因素对橱窗状态识别的影响。通过利用改进的目标检测算法来确定实验是否有人,减少了无效的橱窗识别次数。本文提出的多尺度空洞原型网络DProtoNet充分利用了空洞卷积及小样本学习的优势,能够对有限的橱窗图像数据进行有效学习。实验结果表明:本文算法不仅在正常条件下准确率明显高于传统方法及卷积神经网络,在光照变化条件下也可以取得较高的准确率。下一步工作将尝试引入更多的干扰因素,进一步提高模型的鲁棒性。

(4)  表(3) 参考文献 (20) 相关文章 (14)

目录

    /

    返回文章