高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于区域时空二合一网络的动作检测方法

    作者简介: 汤 强(1995—),男,江苏宿迁人,硕士生,主要研究方向为视频理解、图像处理。E-mail:TQ1508420095@163.com;
    通讯作者: 朱煜, zhuyu@ecust.edu.cn
  • 中图分类号: TP391.4

Action Detection Based on Region Spatiotemporal Two-in-One Network

    Corresponding author: ZHU Yu, zhuyu@ecust.edu.cn ;
  • CLC number: TP391.4

  • 摘要: 视频动作检测研究是在动作识别的基础上,进一步获取动作发生的位置和时间信息。结合RGB空间流和光流时间流,提出了一种基于SSD的区域时空二合一动作检测网络。改进了非局部时空模块,在光流中设计了像素点筛选器来提取运动关键区域信息,只对空间流中筛选出的动作关键区域进行相关性计算,有效获得动作长距离依赖并改善非局部模块计算成本较大的缺陷,同时降低了视频背景噪声的干扰。在基准数据集UCF101-24上进行了实验,结果表明所提出的区域时空二合一网络具有更好的检测性能,视频级别的平均精度(video_mAP)达到了43.17%@0.5。
  • 图 1  区域时空二合一网络结构图

    Figure 1.  Region spatiotemporal two-in-one network structure

    图 2  区域时空二合一模块结构

    Figure 2.  Region spatiotemporal two-in-one module structure

    图 3  标记筛选器原理图

    Figure 3.  Schematic diagram of mark selector

    图 4  “滑雪”动作数据集示例

    Figure 4.  Example of action Skiing in dataset

    图 5  区域时空二合一模块前后特征图可视化结果示例

    Figure 5.  Example of visualization of the region spatiotemporal two-in-one module

    图 6  区域时空二合一网络对于UCF-24数据集中部分示例检测结果

    Figure 6.  Detection results of proposed network for ucf-24 dataset

    表 1  UCF101-24数据集中各类别在IoU阈值为0.5时的frame_AP(%)对比结果

    Table 1.  Comparison of frame_AP of UCF101-24 at IOU threshold of 0.5

    Classframe_AP/%$ \Delta $(diff)
    SSDThis paper
    Basketball28.9132.373.46
    Basketball_dunk49.9049.61-0.29
    Biking78.3678.27-0.09
    Cliff_diving50.1957.957.76
    Crick_bowling27.6831.443.76
    Diving78.9780.701.73
    Fencing87.9588.160.21
    Floor_gymnastics83.3885.442.06
    Golf_swing43.4444.831.39
    Horse_riding88.5788.41-0.16
    Ice_dancing71.6172.400.79
    Long_jump56.7759.442.67
    Pole_vault55.0456.721.68
    Rope-climbing81.3682.120.76
    Salsa_spin69.2669.01-0.25
    Skate_boarding68.6371.713.08
    Skiing68.0977.739.64
    Skijet84.4487.453.01
    Soccer_juggling79.9780.140.17
    Surfing82.8886.503.62
    Tennis_swing37.2637.18-0.08
    Trampoline_jumping60.6360.54-0.09
    Volleyball_spiking35.5136.500.99
    Walking_with_dog74.2674.440.18
    frame_mAP64.2966.211.92
    下载: 导出CSV

    表 2  动作检测算法在UCF101-24数据集上的video_mAP结果对比

    Table 2.  Comparison of video_mAP on UCF101-24

    Algorithmvideo_mAP/%
    0.200.500.750.50:0.95
    Literature [9]71.8035.901.608.80
    Literature[10]69.840.915.518.7
    Literature [15]66.7035.907.9014.40
    Literature [16]73.537.8--
    Literature [17]71.5340.0713.9117.90
    Literature [18]56.736.6--
    Literature [19]72.941.4--
    This paper74.2243.1714.8219.05
    下载: 导出CSV
  • [1] 黄晴晴, 周风余, 刘美珍. 基于视频的人体动作识别算法综述[J]. 计算机应用研究, 2020, 37(11): 3213-3219.
    [2] 朱煜, 赵江坤, 王逸宁, 等. 基于深度学习的人体行为识别算法综述[J]. 自动化学报, 2016, 42(6): 848-857.
    [3] TIAN Y, SUKTHANKAR R, SHAH M. Spatiotemporal deformable part models for action detection[C]//the IEEE International Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2013: 2642-2649.
    [4] TRAN D, YUAN J. Max-margin structured output regression for spatio-temporal action localization[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2012: 350-358.
    [5] YUAN J, LIU Z, WU Y. Discriminative video pattern search for efficient action detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(9): 1728-1743. doi: 10.1109/TPAMI.2011.38
    [6] GAIDON A, HARCHAOUI Z, SCHMID C. Temporal localization of actions with actoms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2782-2795. doi: 10.1109/TPAMI.2013.65
    [7] ONEATA D, VERBEEK J J, SCHMID C. Efficient action localization with approximately normalized fisher vectors[C]//the IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2014: 2545-2552.
    [8] VAN G J C, JAIN M, GATI E, et al. APT: Action localization proposals from dense trajectories[C]//the British Machine Vision Conference. UK: BMVA Press, 2015: 1-12.
    [9] PENG X, SCHMID C. Multi-region two-stream R-CNN for action detection[C]//European Conference on Computer Visio. Amsterdam, Netherlands: Springer, 2016: 744-759.
    [10] SINGH G, SAHA S, SAPIENZA M, et al. Online real-time multiple spatiotemporal action localisation and prediction[C]//the IEEE International Conference on Computer Vision. Italy: IEEE, 2017: 3637-3646.
    [11] WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//the IEEE Conference on Computer Vision and Pattern Recognitio. USA: IEEE, 2018: 7794-7803.
    [12] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. Canada: NIPS, 2014: 568-576.
    [13] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//the IEEE International Conference on Computer Vision and Pattern Recognitio. USA: IEEE, 2016: 1933-1941.
    [14] 杨天明, 陈志, 岳文静. 基于视频深度学习的时空双流人物动作识别模型[J]. 计算机应用, 2018, 38(3): 895-899, 915. doi: 10.11772/j.issn.1001-9081.2017071740
    [15] SAHA S, SINGH G, SAPIENZA M, et al. Deep learning for detecting multiple space-time action tubes in videos[C]//International Computer Vision Summer School. Italy: ICVSS, 2016: 1-13.
    [16] YANG Z H, GAO J Y, NEVATIA R. Spatio-temporal action detection with cascade proposal and location anticipation[C]//British Machine Vision Conference. UK: BMVC, 2017: 1-12.
    [17] BEHL H S, SAPIENZA M, SINGH G, et al. Incremental tube construction for human action detection[C]//British Machine Vision Conference. Newcastle, UK: BMVC, 2018: 1-12.
    [18] SONG Y, KIM I. Spatio-temporal action detection in untrimmed videos by using multimodal features and region proposals[J]. Sensors, 2019, 19(5): 1085-1103. doi: 10.3390/s19051085
    [19] ALWANDO E H P, CHEN Y T, FANG W H. CNN-Based multiple path search for action tube detection in videos[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(1): 104-116. doi: 10.1109/TCSVT.2018.2887283
  • 加载中
图(6)表(2)
计量
  • 文章访问数:  84
  • HTML全文浏览量:  47
  • PDF下载量:  1
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-11-26
  • 网络出版日期:  2021-03-24

基于区域时空二合一网络的动作检测方法

    作者简介:汤 强(1995—),男,江苏宿迁人,硕士生,主要研究方向为视频理解、图像处理。E-mail:TQ1508420095@163.com
    通讯作者: 朱煜, zhuyu@ecust.edu.cn
  • 华东理工大学信息科学与工程学院,上海 200237

摘要: 视频动作检测研究是在动作识别的基础上,进一步获取动作发生的位置和时间信息。结合RGB空间流和光流时间流,提出了一种基于SSD的区域时空二合一动作检测网络。改进了非局部时空模块,在光流中设计了像素点筛选器来提取运动关键区域信息,只对空间流中筛选出的动作关键区域进行相关性计算,有效获得动作长距离依赖并改善非局部模块计算成本较大的缺陷,同时降低了视频背景噪声的干扰。在基准数据集UCF101-24上进行了实验,结果表明所提出的区域时空二合一网络具有更好的检测性能,视频级别的平均精度(video_mAP)达到了43.17%@0.5。

English Abstract

  • 近年来,随着互联网技术的发展和数码设备的不断普及,视频数据呈爆发式增长,视频智能分析成为当前计算机视觉领域的研究热点,在人机交互系统、自动驾驶、视频监控和城市安全系统等领域具有广泛的应用。其中,动作检测是视频分析的主要任务和难点之一。动作检测是在动作识别[1-2]的基础上,对视频中发生的动作分类后,进一步定位动作发生的空间位置及动作开始和结束的时间。

    早期较为成功的动作检测算法[3-5]主要是通过滑窗搜索法、特征表示以及SVM等方法来实现。后来,受到动作识别中密集轨迹(Dense Trajectories, DT)算法的启发,研究者们开始使用DT算法在时间维度上进行动作定位[6-7]。Van等[8]进一步将DT算法从时序动作检测扩展至时空动作检测,取得了一些进展。但这些早期的方法主要通过人工设计特征,泛化能力和整体性能都较为有限。

    随着深度学习在目标检测领域的广泛应用,一些研究者们认为动作检测和目标检测具有一定的相似性,所以尝试将Faster-RCNN和SSD等目标检测网络迁移到动作检测任务中。同时,由于双流卷积神经网络能有效结合视频的空间和时序信息,在动作识别任务中具有优异的性能,目前许多动作检测网络也沿用双流网络的框架形式。其中,Peng等[9]将Faster-RCNN和双流网络结合,提出了基于Faster-RCNN的端到端双流动作检测网络。使用Faster-RCNN对视频中的每一帧RGB图像和光流图进行目标检测,然后通过兴趣区域和置信度融合的方式将空间流和时间流的帧级别检测结果进行合并,最后通过动作管道生成算法将相邻帧之间的检测结果匹配连接,生成最终的时空动作管道。Singh等[10]使用双流SSD检测器,并结合实时光流算法实现更快速的动作检测。然而,相较于图片而言,视频具有很强的时间相关性,内容随时间不断变化。上述双流法虽然融入了时序信息,但无法获取长距离的时序相关性,对于一些时间跨度比较长的动作实例表现欠佳。同时,视频往往包含大量背景信息,使得对视频进行特征表示时,存在大量的冗余信息,对分类和检测结果产生干扰。因此,有效利用视频中运动特征明显的关键区域信息,构建长距离时序相关性,对动作检测十分重要。

    针对以上问题,本文提出了一种基于SSD的区域时空二合一动作检测网络,引入非局部机制(Non-local)[11]并加以改进,在获取长距离时序相关性的同时,通过时间流特征图中的关键动作区域信息对空间流特征图进行筛选,增强网络对于动作主体特征的学习,减少背景区域对分类和检测结果的影响。实验结果表明本文方法能有效提高动作检测的精度。

    • 基于SSD的区域时空二合一动作检测网络结构如图1所示。

      图  1  区域时空二合一网络结构图

      Figure 1.  Region spatiotemporal two-in-one network structure

      图1中蓝色方块表示卷积层,绿色方块表示最大池化层,红色方块表示区域时空二合一模块。上支路的输入为$ 300\times 300 $的单帧RGB图像,下支路输入为$ 300\times 300 $的单张光流图。首先,RGB图像经过SSD的Conv1和Conv2卷积层,得到大小为$ 75\times 75 $、通道数为$ 128 $的空间流特征图。光流图则分别经过3层$ 1\times 1 $卷积层、1层$ 3\times 3 $卷积层以及1层$ 2\times 2 $最大池化层得到大小为$ 75\times 75 $、通道数为$ 128 $的时间流特征图。然后,将这两组尺寸相同的特征图同时输入到区域时空二合一模块,实现动作目标特征增强和时空特征融合。通过区域时空二合一模块后,时空混合特征图经过SSD剩余的部分进行边界框回归和分类,并得到帧级别的动作检测结果。最后,帧级别的动作检测结果经过动作管道生成器进行匹配和连接,最终得到视频级别的动作检测结果。

    • 与以往通过改变网络结构去学习动作的时空特征不同,Simonyan等[12]从输入数据角度入手,结合视频相邻帧之间运动信息可以通过光流表达的特点,设计了一种双流卷积神经网络用于视频动作识别,但所提出的双流网络的时间流和空间流相对独立,导致彼此无法共享学习的动作信息。针对这一问题,Feichtenhofer等[13]提出了一种新的双流融合技术,将原始双流中网络末端的结果融合改进为网络中段的特征图融合。这种特征图融合方式可以在像素级别上连接包含动作空间信息的特征图和包含动作时间信息的特征图,使得后续的卷积网络可以同时学习动作的空间特征和时序特征。与文献[14]相似,本文也借鉴这一网络中段双流融合思路,但与文献[14]直接将两流特征图相加不同,本文设计了区域时空二合一模块来获取更好的融合特征。

    • 长距离时序相关性的建立对于动作检测任务十分重要。文献[11]提出了一类新的神经网络,通过非局部运算来捕捉长距离相关性,有利于时序问题的处理,本文将其引入到动作检测任务中。非局部操作可以增强特征图中每个像素点之间的相互关系,使得动作目标能够获取动作整体相关性,即更好的时序信息。但是非局部操作需要计算全局的像素点,计算成本较大。同时视频背景像素加入全局计算,将增加噪声,对结果产生干扰。因此,本文对非局部加以改进,设计了像素标记筛选器$ M\_S $,只对动作特征明显的目标区域进行相关性计算,从而在获取长距离时序相关性的同时,减少网络计算成本并且排除背景的干扰。

      一般来说,视频中的背景区域在相邻帧之间几乎不会发生变化,而产生动作的主体区域在相邻帧之间时常会发生明显的位移或角度变化。在光流图中,像素值较大的部分通常为动作目标区域,因此,本文结合光流图的数据特征对非局部机制进行改进,提出了一种区域时空二合一模块,其结构如图2所示。主要分为3个部分:像素点筛选、区域相关性计算、像素点填充。

      图  2  区域时空二合一模块结构

      Figure 2.  Region spatiotemporal two-in-one module structure

    • 像素点筛选可以表示为

      其中:$ {F}^{\rm{rgb}} $表示空间流特征图;$ {F}^{\rm{of}} $表示时间流特征图。像素点筛选的流程如下:首先,$ {F}^{\rm{rgb}} $$ {F}^{\rm{of}} $分别经过$ 1\times 1 $的卷积操作$ \delta $$ \varphi $缩减通道维度到128,减少计算量;然后,时间流特征图$ \varphi \left({F}^{\rm{of}}\right) $经过softmax将像素值归一化到0~1之间,并与空间流特征图$ \delta \left({F}^{\rm{rgb}}\right) $一同输入标记筛选器$ M\_S $

      $ M\_S $的原理如图3所示。图3中上半部分为空间流特征图$ \delta \left({F}^{\rm{rgb}}\right) $,下半部分为归一化后的时间流特征图$ {\rm{softmax}}\left(\varphi \right({F}^{\rm{of}}\left)\right) $。对于时间流特征图中的像素点,若像素值大于阈值$ \varepsilon $,则在该点的相应位置打上标记。其中$ \varepsilon $的取值通过特征图的大小设定,例如对于$ 28\times 28 $的特征图,$ \varepsilon $的取值为$1/(28\times 28)= $$ 0.001\;28$。将1设为被除数是因为时间流特征图经过softmax后像素值的总和为1,因此通过阈值设定可以将平均值以上的像素点标记出来。然后将这些标记信息映射到空间流特征图上,筛选出空间流特征图中相对应位置的像素点。因此,经过标记筛选器后得到的输出${{s}}$的大小为$ M\times C/2 $,其中$ M $为空间流特征图中筛选出的像素点,$ C/2 $为输出特征图的通道数。

      图  3  标记筛选器原理图

      Figure 3.  Schematic diagram of mark selector

    • 区域相关性计算方式与非局部机制的非局部计算相同,只是输入数据的大小有所区别,不再是特征图的所有像素点间计算,而只是对由$ M\_S $筛选出的关键动作区域的像素点间计算。区域相关性的计算公式如(2)所示:

      其中:$ {{W}}_{{\theta }}\mathrm{和}{{W}}_{{\phi }} $ 为网络要学习的参数;$g\left({{s}}\right)$${{s}}$$ g $空间的映射,本文取$g\left({{s}}\right)$为特征图本身。

    • 计算相关性之后,再通过标记的位置将像素值逐一放回筛选之前的特征图中,如式(3)所示:

      最后式(4)通过$ 1\times 1 $的卷积 $ \omega $ 还原原始模块输入的通道数,并通过残差连接与原始空间流输入相加,得到最终的输出结果$ {F}^{\rm{out}} $:

      区域时空二合一模块的核心点在于该模块运用时间流提取的特征图中包含动作目标区域信息的特点。设计$ M\_S $将空间流特征图中该动作关键区域的像素点筛选出来单独进行相关性计算,从而在获取长距离时序相关性的同时,改善非局部模块计算成本较大的缺陷,并大大降低了视频背景噪声的干扰。

    • 动作检测任务的最终目的是得到一组连续检测集合,即动作管道$ {{{T}}}_{c}=\{{b}_{ts},\cdots ,{b}_{te}\} $。其中,$ c $表示动作管道的类别,$ {b}_{ts} $表示动作管道开始的帧级别检测框,$ {b}_{te} $表示动作管道结束的帧级别检测框。本文借鉴文献[10]中的动作管道生成算法,使用一种简单而有效的管道生成方式为每个动作类别并行地构建多个动作管道。

      该算法的输入是具有特定类别置信度的帧级别检测框。在时刻$ t $,对于类别$ c $的前$ n $个检测框$ \{{b}_{c}^{j},j=1,\cdots ,n\} $,算法通过选取一个最佳匹配检测框来逐渐增加动作管道的长度。生成的动作管道需要满足以下条件:(1)同一动作管道连续帧的检测结果在空间上的重叠率必须大于阈值$ \lambda $;(2)每个帧级别检测框只能属于一个动作管道。

    • 本文采用动作检测基准数据集UCF101-24进行实验,该数据集是动作识别基准数据集UCF-101的子集。为了适合动作检测任务,研究者们从UCF-101中剔除面部表情等部分动作类别,并进行标签补充,最后保留24个动作类别。UCF101-24中的视频数据不仅有类别标签,还有动作目标的空间坐标,以及动作开始和结束的时间。UCF101-24数据集中每个视频仅包含一个动作类别,但可能包含多个动作实例。一般每个视频有1.5个动作实例,每个动作实例覆盖视频时长的70%,而对于某些类别,动作实例的平均覆盖时长可能低至30%。

    • 借鉴目标检测的评价指标,动作检测也使用平均精度(mean Average Precision, mAP)作为算法的主要评价标准。根据帧级别的检测结果和视频级别的检测结果,评价指标分为帧级别的平均精度(frame_mAP)和视频级别的平均精度(video_mAP)。

      frame_mAP为数据集中所有类别frame_AP的平均值,计算公式如下:

      其中:$ N $为动作类别总数;$\displaystyle \sum $表示求和。frame_mAP与目标检测中AP的计算方式相同,为计算精确率-召回率曲线下的面积大小。

      video_mAP为检测算法最后生成的动作管道准确率的均值,只有当组成管道的所有帧的检测区域与真实区域的平均重叠率大于阈值$ \sigma $且动作管道的类别分类准确时,才认为这段动作管道为真实正样本。

    • 实验环境为NVIDIA GTX 1080Ti GPU、Ubuntu 16操作系统、Pytorch0.4.0和Python3.6.4。

      网络的输入数据为$ 3\times 300\times 300 $的单张RGB视频帧和$ 2\times 300\times 300 $的单张光流图。每一次送入网络的批次大小为8,初始学习率为0.0001。每次训练迭代120000次,并在迭代70000次和90000次时进行学习率衰减,学习率的衰减率为0.5。

    • 表1示出了SSD动作检测网络[10]和区域时空二合一网络在数据集具体24个动作类别的frame_AP对比结果。统计了IoU阈值为0.5时各类别的frame_AP,其中最后一行是所有类别的frame_AP取平均得到的frame_mAP,$ \Delta $表示区域时空二合一网络相对于基础网络的提升。

      Classframe_AP/%$ \Delta $(diff)
      SSDThis paper
      Basketball28.9132.373.46
      Basketball_dunk49.9049.61-0.29
      Biking78.3678.27-0.09
      Cliff_diving50.1957.957.76
      Crick_bowling27.6831.443.76
      Diving78.9780.701.73
      Fencing87.9588.160.21
      Floor_gymnastics83.3885.442.06
      Golf_swing43.4444.831.39
      Horse_riding88.5788.41-0.16
      Ice_dancing71.6172.400.79
      Long_jump56.7759.442.67
      Pole_vault55.0456.721.68
      Rope-climbing81.3682.120.76
      Salsa_spin69.2669.01-0.25
      Skate_boarding68.6371.713.08
      Skiing68.0977.739.64
      Skijet84.4487.453.01
      Soccer_juggling79.9780.140.17
      Surfing82.8886.503.62
      Tennis_swing37.2637.18-0.08
      Trampoline_jumping60.6360.54-0.09
      Volleyball_spiking35.5136.500.99
      Walking_with_dog74.2674.440.18
      frame_mAP64.2966.211.92

      表 1  UCF101-24数据集中各类别在IoU阈值为0.5时的frame_AP(%)对比结果

      Table 1.  Comparison of frame_AP of UCF101-24 at IOU threshold of 0.5

      与SSD动作检测网络相比,区域时空二合一网络在“打篮球”、“滑雪”等18个动作类别的帧级别检测精度均有所提升,“滑雪”动作的检测精度增幅高达9.64%,每个类别平均增幅达到2.61%。而“扣篮”等6个动作的检测精度虽然有所下降,但幅度均小于0.3%。性能提升的18个动作类别都属于包含大量背景信息的动作实例,并且动作跨时也比较长,表明本文方法有效建立了长距离时序相关性,同时降低了背景的干扰。其中,“滑雪”动作数据集示例如图4所示,可以看到数据集中的滑雪动作并不都是左上角的只有白雪覆盖的背景,相反,数据集中大部分都伴随着山峰、树木或赛道背景等噪声干扰。而对于“扣篮”动作的检测性能稍微下降,主要是因为“扣篮”动作持续时间较短,往往只有一、两秒,而且动作主体集中在体积较小的篮球上,而“打篮球”则包括前期运球、准备投篮、投篮、篮球进框等多个步骤,持续时间较长,并且动作主体集中于人。因此,整体而言,区域时空二合一网络可以有效提高动作检测精度。

      图  4  “滑雪”动作数据集示例

      Figure 4.  Example of action Skiing in dataset

    • 当IoU阈值分别为0.2、0.5、0.75和0.50:0.95时,video_mAP值如表2所示。其中,0.5:0.95为阈值0.5至0.95每隔0.05测得的平均值。

      Algorithmvideo_mAP/%
      0.200.500.750.50:0.95
      Literature [9]71.8035.901.608.80
      Literature[10]69.840.915.518.7
      Literature [15]66.7035.907.9014.40
      Literature [16]73.537.8--
      Literature [17]71.5340.0713.9117.90
      Literature [18]56.736.6--
      Literature [19]72.941.4--
      This paper74.2243.1714.8219.05

      表 2  动作检测算法在UCF101-24数据集上的video_mAP结果对比

      Table 2.  Comparison of video_mAP on UCF101-24

      可以看出,与近年来提出的动作检测网络相比,本文提出的区域时空二合一网络在不同阈值下的video_mAP均有所提高。

    • 为了验证本文提出的区域时空二合一网络的性能,对区域时空二合一模块的输入特征图和输出特征图进行可视化,并给出了UCF-24数据集中部分示例检测结果。可视化结果如图5所示。图中的第1行是输入模块中的时间流特征图,第2行是输入模块中的空间流特征图,第3行是模块输出的时空二合一特征图。

      图  5  区域时空二合一模块前后特征图可视化结果示例

      Figure 5.  Example of visualization of the region spatiotemporal two-in-one module

      从第1行的时间流数据可以看出,原始输入光流图在经过若干层卷积之后可以得到动作目标区域明显的时间流特征图。对比使用时间流特征图筛选前后的第2行和第3行特征图,尤其是最后一列,不难发现,经过区域时空二合一模块后的空间流特征图中背景噪声受到了抑制,最后输出的时空二合一特征图中动作目标区域得到增强和突出,更为明显,如图中做运动的男子及其手部和腿部变化。

      图6 示出了UCF-24数据集中部分示例的检测结果,绿色字体代表预测的动作类别,红色框为预测的动作区域,黄色框为真实的动作区域。示例中黄色框和红色框的重合比例很高,表明本文提出的网络具有较好的检测性能。

      图  6  区域时空二合一网络对于UCF-24数据集中部分示例检测结果

      Figure 6.  Detection results of proposed network for ucf-24 dataset

    • 本文通过对非局部模块进行分析和改进,在光流中设计了像素点筛选器来提取运动关键区域信息,再融入空间流中。提出了一种区域时空二合一模块,并借鉴双流融合的原理将区域时空二合一模块应用于SSD检测框架中。提出了一种新型的动作检测网络——区域时空二合一网络。最后通过基准数据集UCF101-24进行网络训练和性能验证。实验证明区域时空二合一网络在获取长距离时序相关性的同时,改善非局部模块计算成本较大的缺陷,并大大降低了视频背景噪声的干扰,拥有更好的检测性能。

(6)  表(2) 参考文献 (19)

目录

    /

    返回文章