高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于时序卷积网络的情感识别算法

    作者简介: 宋振振(1994-),男,山东菏泽人,硕士生,主要研究方向为情感识别。E-mail:zhenzhensung@163.com;
    通讯作者: 陈兰岚, llchen@ecust.edu.cn
  • 中图分类号: TP391

Emotion Recognition Algorithm Based on Temporal Convolution Network

    Corresponding author: Lanlan CHEN, llchen@ecust.edu.cn ;
  • CLC number: TP391

  • 摘要: 本文采用脑电数据集DEAP进行情感识别。由于脑电信号具有时序性,采用深度学习中的时序卷积网络(TCN)对数据进行训练识别。首先使用小波包分解提取各子带小波系数能量值作为特征;然后通过TCN网络对特征进行训练,在训练的过程中加入了Snapshot寻优思想保存多个模型;最后采用投票集成策略建立集成模型,以提高识别精度,并增强结果稳健性。实验结果表明,本文方法将情感分为二类和四类的平均识别精度能够达到95%和93%,相对于同类研究有较大的提高。
  • 图 1  基于脑电信号的情感识别总体框图

    Figure 1.  Overall block diagram of EEG-based emotion recognition algorithm

    图 2  视频片段得分分布

    Figure 2.  Score distribution of video clip

    图 3  TCN结构图

    Figure 3.  TCN structure diagram

    图 4  因果卷积模型

    Figure 4.  Casual convolution model

    图 5  一维扩张卷积

    Figure 5.  One-dimensional expansion convolution

    图 6  寻优过程图

    Figure 6.  Diagram of optimization process

    图 7  投票集成过程

    Figure 7.  Process of voting ensemble

    图 8  Valence二分类结果对比

    Figure 8.  Comparison of valence two classification results

    图 9  Arousal二分类结果对比

    Figure 9.  Comparison of arousal two classification results

    图 10  A-V四分类结果对比

    Figure 10.  Comparison of A-V four classification results

    图 11  Valence集成策略结果对比

    Figure 11.  Comparison of valence ensemble strategy results

    表 1  各频段信号的识别精度对比

    Table 1.  Comparison of recognition accuracy of signals in each frequency band

    EmotionAccuracy/%All
    DeltaThetaAlphaBeta Gamma
    Valence89.1088.5087.1091.5090.3094.70
    Arousal82.1083.3087.6090.8091.1092.90
    A-V83.7085.108584.9086.5090.70
    下载: 导出CSV

    表 2  两种情绪识别精度对比

    Table 2.  Comparison of two emotion recognition accuracy

    MethodAccuracy/%Category
    ValenceArousal
    Reference[21]85.2080.502
    Reference[22]90.3989.062
    Reference[23]73.3072.502
    Reference[24]81.2181.762
    Reference[25]80.1077.202
    Reference[26]74.1272.062
    Reference[27]84.9584.142
    Reference[28]88.3388.592
    TCN94.6792.892
    Proposed method96.4795.722
    下载: 导出CSV

    表 3  4种情绪识别精度对比

    Table 3.  Comparison of four emotion recognition accuracy

    MethodAccuracy/%Category
    Reference[29]70.044
    Reference[30]91.204
    Reference[31]90.204
    TCN90.684
    Proposed method92.494
    下载: 导出CSV
  • [1] ZHANG L, JIANG M, FARID D, et al. Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot[J]. Expert Systems with Applications, 2013, 40(13): 5160-5168. doi: 10.1016/j.eswa.2013.03.016
    [2] DAHL G E, YU D, DENG L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on audio, Speech, and Language Processing, 2012, 20(1): 30-42. doi: 10.1109/TASL.2011.2134090
    [3] HEALEY J, PICARD R. Digital processing of affective signals[C]//Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing. USA: IEEE, 1998: 3749-3752.
    [4] ZHENG W L, LU B L. Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks[J]. IEEE Transactions on Autonomous Mental Development, 2015, 7(3): 162-175. doi: 10.1109/TAMD.2015.2431497
    [5] LI X, SONG D, ZHANG P, et al. Emotion recognition from multi-channel EEG data through convolutional recurrent neural network[C]//2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Shenzhen, China: IEEE, 2016: 352-359.
    [6] YANG Y, WU Q M J, ZHENG W L, et al. EEG-based emotion recognition using hierarchical network with subnetwork nodes[J]. IEEE Transactions on Cognitive and Developmental Systems, 2018, 10(2): 408-419. doi: 10.1109/TCDS.2017.2685338
    [7] BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends® in Machine Learning, 2009, 2(1): 1-127. doi: 10.1561/2200000006
    [8] 李幼军, 黄佳进, 王海渊, 等. 基于SAE和LSTM RNN的多模态生理信号融合和情感识别研究[J]. 通信学报, 2017, 38(12): 109-120. doi: 10.11959/j.issn.1000-436x.2017294
    [9] GREFF K, SRIVASTAVA R K, KOUTNíK J, et al. LSTM: A search space odyssey[J]. IEEE transactions on Neural Networks and Learning Systems, 2017, 28(10): 2222-2232. doi: 10.1109/TNNLS.2016.2582924
    [10] CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. arXiv.org. 2014-12-11[2019-04-20]. arXiv: 1412.3555.
    [11] BAI S, KOLTER J Z, KOLTUN V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[EB/OL]. arXiv.org. 2018-03-04 [2019-04-20]. arXiv: 1803.01271.
    [12] HUANG G, LI Y, PLEISS G, et al. Snapshot ensembles: Train 1, get m for free[EB/OL].arXiv.org. 2017-04-01[2019-04-20]. arXiv: 1704.00109.
    [13] KOELSTRA S, MUHL C, SOLEYMANI M, et al. DEAP: A database for emotion analysis;using physiological signals[J]. IEEE Transactions on Affective Computing, 2012, 3(1): 18-31. doi: 10.1109/T-AFFC.2011.15
    [14] EGON L. VAN DEN Broek Ubiquitous emotion-aware computing[J]. Personal and Ubiquitous Computing, 2013, 17(1): 53-67. doi: 10.1007/s00779-011-0479-9
    [15] MEHRABIAN A. Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in Temperament[J]. Current Psychology, 1996, 14(4): 261-292. doi: 10.1007/BF02686918
    [16] JAMES A R. A circumplex model of affect[J]. Journal of Personality and Social Psychology, 1980, 39(6): 1161-1178. doi: 10.1037/h0077714
    [17] GERS F A, SCHMIDHUBER E. LSTM recurrent networks learn simple context-free and context-sensitive languages[J]. IEEE Transactions on Neural Networks, 2001, 12(6): 1333-1340. doi: 10.1109/72.963769
    [18] OORD A, DIELEMAN S, ZEN H, et al. WaveNet: A generative model for raw audio[EB/OL]. arXiv.org. (2016-09-12)[2019-04-20]. arXiv: 1609.03499.
    [19] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 3431-3440.
    [20] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2016: 770-778.
    [21] LIU W, ZHENG W L, LU B L. Multimodal emotion recognition using multimodal deep learning[C]//International Conference on Neural Information Processing. Japan: Springer, 2016: 521-529.
    [22] LIU N, FANG Y, LI L, et al. Multiple feature fusion for automatic emotion recognition using EEG signals[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). USA: IEEE, 2018: 896-900.
    [23] THAMMASAN N, MORIYAMA K, FUKUI K I, et al. Familiarity effects in EEG-based emotion recognition[J]. Brain Informatics, 2017, 4(1): 39-50. doi: 10.1007/s40708-016-0051-5
    [24] ZHANG J, CHEN M, HU S, et al. PNN for EEG-based emotion recognition[C]//2016 IEEE International Conference on Systems, Man, and Cybernetics (SMC). USA: IEEE, 2016: 2319-2323.
    [25] KOLLIA V. Personalization effect on emotion recognition from physiological data: An investigation of performance on different setups and classifiers[EB/OL]. arXiv.org. (2016-06-20)[2019-04-20]. arXiv: 1607.05832.
    [26] LI X, SONG D, ZHANG P, et al. Emotion recognition from multi-channel EEG data through convolutional recurrent neural network[C]//2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). USA: IEEE, 2016: 352-359.
    [27] ALI M, MOSA A H, Al MACHOT F, et al. EEG-based emotion recognition approach for e-healthcare applications[C]//2016 Eighth International Conference on Ubiquitous and Future Networks (ICUFN). USA: IEEE, 2016: 946-950.
    [28] XU H, PLATANIOTIS K N. Affective states classification using EEG and semi-supervised deep learning approaches[C]//2016 IEEE 18th International Workshop on Multimedia Signal Processing (MMSP). USA: IEEE, 2016: 1-6.
    [29] CHEN J, HU B, WANG Y, et al. A three-stage decision framework for multi-subject emotion recognition using physiological signals[C]//2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). USA: IEEE, 2016: 470-474.
    [30] VAL-CALVO M, ÁLVAREZ-SÁNCHEZ J R, DÍAZ-MORCILLO A, et al. On the use of lateralization for lightweight and accurate methodology for EEG real time emotion estimation using Gaussian-process classifier[C]//International Work-Conference on the Interplay Between Natural and Artificial Computation. Germany, Cham: Springer, 2019: 191-201.
    [31] AGUIÑAGA A R, RAMIREZ M A L. Emotional states recognition, implementing a low computational complexity strategy[J]. Health Informatics Journal, 2018, 24(2): 146-170. doi: 10.1177/1460458216661862
  • [1] 魏琛陈兰岚张傲 . 基于集成卷积神经网络的脑电情感识别. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180416004
    [2] 王德勋虞慧群范贵生 . 基于深度学习的面部动作单元识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190107003
    [3] 徐清爽郭志前 . 反应型甲醛小分子荧光探针进展. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190224002
    [4] 赵澜涛林家骏 . 基于双路CNN的多姿态人脸识别方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180326003
    [5] 李一斌张欢欢 . 基于双向GRU-CRF的中文包装产品实体识别. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180407001
    [6] 马振伟何高奇袁玉波 . 基于小样本深度学习的通风柜橱窗状态识别方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190412004
    [7] 盛宙颜秉勇周家乐王慧锋 . 基于模糊C均值和SLIC的纳米孔阻断事件的识别与研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206002
    [8] 罗安王汉奎王建文 . 基于小冲杆试验数据的力学性能的数值模拟. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180609002
    [9] 马恒达袁伟娜徐睿 . 一种组稀疏信道估计中的信号重构优化方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180409004
    [10] 帅洁胡佳杰涂燕尚亚卓刘洪来 . 光响应小分子/表面活性剂自组装体的宏观光响应行为. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190821001
    [11] 郭妙吉金晶王行愚 . 基于多种灰度闪光刺激的P300脑-机接口性能研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180330002
    [12] 陈鹏罗娜 . 基于竞争机制差分进化算法的无分流换热网络优化. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181015004
    [13] 王宁曹萃文 . 基于XGBoost模型的炼油厂氢气网络动态多输出预测模型. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.3080
    [14] 张习习顾幸生 . 基于集成学习概率神经网络的电机轴承故障诊断. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206001
    [15] 解冰朱宏擎 . 一种基于选择性卷积特征和最大后验高斯混合模型的细粒度图像分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180603001
  • 加载中
图(11)表(3)
计量
  • 文章访问数:  2591
  • HTML全文浏览量:  1202
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-05-13
  • 网络出版日期:  2019-10-15

基于时序卷积网络的情感识别算法

    作者简介:宋振振(1994-),男,山东菏泽人,硕士生,主要研究方向为情感识别。E-mail:zhenzhensung@163.com
    通讯作者: 陈兰岚, llchen@ecust.edu.cn
  • 华东理工大学化工过程先进控制和优化技术教育部重点实验室,上海 200237

摘要: 本文采用脑电数据集DEAP进行情感识别。由于脑电信号具有时序性,采用深度学习中的时序卷积网络(TCN)对数据进行训练识别。首先使用小波包分解提取各子带小波系数能量值作为特征;然后通过TCN网络对特征进行训练,在训练的过程中加入了Snapshot寻优思想保存多个模型;最后采用投票集成策略建立集成模型,以提高识别精度,并增强结果稳健性。实验结果表明,本文方法将情感分为二类和四类的平均识别精度能够达到95%和93%,相对于同类研究有较大的提高。

English Abstract

  • 情感识别作为情感研究的核心内容能够使机器理解人的感性思维,影响着机器智能化的继续发展,成为影响人机自然交互的关键要素。同时,情感识别融合多学科为一体,其发展将会带动多学科的共同发展,其应用也会带来巨大的经济效益和社会效益,因此情感识别已成为研究的热点。

    早期对人类情感的研究通常是利用人的面部表情[1]或人的声音信号[2]进行不同情感状态的识别,这两种人体信号虽然较易获得,但也十分容易被伪装,特别是当受试者不愿意被其他人察觉到自己的情感状态时。由于生理信号不易被伪装,因此有学者提出了利用人体生理信号,如脑电(Electroencephalogram,EEG)、心电、肌电、皮肤电阻、皮温、呼吸信号等来判断受试者的情感状态。Picard等[3]的研究结果证明了应用生理信号进行情感状态辨别是可行的。在生理信号中,EEG信号是一种比较敏感的客观指标,能够较为精确地反映出人的情感变化,因此近年来很多研究者开始使用EEG信号进行情感识别。

    深度学习是机器学习研究中的一个新领域,其目标在于建立、模拟人脑进行分析学习的神经网络,这种神经网络可以模仿人脑的机制来解释诸如图像、声音和文本等不同类型的数据。目前已有很多学者将深度学习应用于脑电情感识别。文献[4]使用深度置信网络(Deep Belief Network, DBNS)对EEG信号进行二分类情感识别,识别精度能够达到86.08%;文献[5]结合卷积神经网络(Convolution Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)网络,对EEG的正确识别率最高达到了74.12%;文献[6]提出了一种具有子节点的特殊神经网络对EEG信号提取差分熵,最高正确率达到93.26%;文献[7]提出并评估了一套深度信念网络模型,并验证了这些模型对分类精度有很大的提高。

    目前深度学习应用领域中的两大主流结构是CNN和RNN。CNN的特点之一是网络的状态仅依赖于输入,但它并不适用于所有问题。例如对于具有时间属性的数据而言,仅依靠当前时刻输入的效果并不是很理想,因此有研究者开始将序列模型用于情感识别的研究中。如文献[8]使用长短期记忆网络(Long Short-Term Memory,LSTM)对脑电信号进行情感识别,取得了很好的效果。然而,传统的序列模型都是在RNN基础上的演变,如LSTM[9]、门控单元循环网络(Gate-Variants of Gated Recurrent Unit,GRU)[10]等,因此序列模型存在一个很大的问题就是它的训练效率相对于CNN来说较低。因为RNN的结构特点,使得每一个时刻的状态学习都依赖于前一个时刻的状态,因此无法做到并行运算,从而导致计算效率大大降低。此外,深度学习在训练模型过程中很容易陷入局部最优,很难得到全局最优值。针对以上问题,本文提出使用时间卷积网络(Temporal Convolution Networks,TCN)[11]对脑电信号进行情感识别,该模型既具有时间序列的特性同时也保留了CNN的可并行计算特点,在保持精度的同时提高了计算效率。同时本文还采用Snapshot快照集成策略[12],通过调整学习率的方式尽可能地寻找到最接近全局最优的值。

    • 基于脑电信号的情感识别步骤一般包括:情感的诱发、脑电信号采集、信号预处理、脑电特征提取及情感学习分类。

      本文采用DEAP数据集[13],使用TCN模型进行情感识别,整体设计框架如图1所示。首先采用小波包变换的方法对预处理过的原始数据提取特征,同时构建情感分类模型,为每个样本标注合适的情感标签;然后以TCN模型为主体,使用Snapshot优化训练方法选择出最优的情感识别分类器。

      图  1  基于脑电信号的情感识别总体框图

      Figure 1.  Overall block diagram of EEG-based emotion recognition algorithm

    • 本文采用的DEAP数据集是由英国伦敦玛丽皇后大学的研究人员通过实验开发的一个用于分析人类情感状态的多模态数据集。该实验选取了40段音乐视频(MV),每段音乐视频的时间长度为63 s,其中前3 s是准备时间。受试者在观看完每段视频后对该视频片段的效价、唤醒度、喜好程度和熟悉度等进行评分,分值为1~9之间的任意数值。

      该数据集记录了32个受试者40个导联的电生理信号。其中前32个导联采集脑电信号,脑电电极的安放位置采用国际脑电图学会规定的10~20系统电极放置法;后8个导联采集人体的外围生理信号,包括眼电、肌电及皮肤电阻。本文仅使用了其中18名受试者的32个导联脑电信号和受试者对每个视频片段的评价指标两部分数据。

    • 数据经过预处理后最终得到每个受试者的数据格式为40 × 32 × 8 064,其中40表示40个视频片段,32表示实验采用的导联数,8 064表示对每个63 s的视频片段以128 Hz的频率进行采样,每个视频片段共采集得到63 × 128 = 8 064个数据点。

    • TCN模型是有监督学习模型,所处理的数据格式是有标签数据,而DEAP数据集本身是没有标签的,所以在学习之前要给数据生成情感分类标签。在DEAP数据集中,给数据生成情感分类标签主要是基于受试者对视频片段的评价指标,因此涉及到了情感的分类模型。

      研究者通常从两种视角来建构和理解情感的分类模型:基本情感模型[14]和维度情感模型[15]。维度情感模型即情感状态的“愉悦度-唤醒度-支配度”(Valence-Arousal-Dominance,PAD)三维模型[16]。Valence(愉悦度)表示积极或消极的情绪状态,如兴奋、爱、平静等积极情绪及羞愧、无趣、厌烦等消极情绪。Arousal(唤醒度)表示生理活动和心理警觉的水平差异,低唤醒如睡眠、厌倦、放松等;高唤醒如清醒、紧张等。

      由于Valence和Arousal两个维度就可以解释绝大部分情绪变化,因此本文仅采用这两个维度作为受试者的情感评价指标,即通过受试者对Valence和Arousal的评分来判断受试者当前的情绪状态。本文对Valence和Arousal进行单独的分类,即LV(Low Valence)表示消极的情绪;HV(High Valence)表示积极的情绪;LA(Low Arousal)表示平静;HA(High Arousal)表示激动;由于Valence和Arousal之间具有关联性,因此同时也考虑了结合Valence和Arousal的分类,即HVHA、HVLA、LVHA、LVLA 4种情绪状态。在二分类任务中,由于只考虑某一项指标,得分较为均匀,因此可以取中间分数作为阈值为情绪进行划分。本实验的评分在1~9之间,因此取5作为阈值。而在四分类任务中,因同时考虑两项指标,导致评价分数点不规则分布。如图2所示,每个受试者的得分点分布差异过大,若仍然采取阈值的方式进行情绪的划分,会忽略受试者之间的差异性。本文采用K-均值(K-Means)聚类方法自适应地将情绪聚成4类,图2中的每种颜色分别代表不同的类别,黑色的十字符号表示聚类中心点,可以看出通过聚类的方法能够将4种情绪比较明显地分隔开。

      图  2  视频片段得分分布

      Figure 2.  Score distribution of video clip

    • 特征提取是情感识别的关键环节,本文采用小波包分析方法[17]分解出脑电信号的各个频段,在不同频段上分别对人的情感变化进行识别。小波包分析是小波分析的延伸,其基本思想是让信息能量集中,在细节中寻找有序性,把其中的规律筛选出来,为信号提供一种更加精细的分析方法。在小波包分解的基础上,探讨脑电信号的频段与情感的联系,并选取优势频段,提取相应小波包系数的能量值作为模型的输入特征。

      对DEAP脑电数据采用db4小波进行4层分解。原始数据的采样频率为128 Hz,奈奎斯特频率为64 Hz,则进行4层分解时,共分为${2^4} = 16$个频带,每个频带的带宽为64/16=4 Hz。选取每个频带节点利用式(1)计算得到各个节点的能量值作为识别特征。

      其中:Ej,i)表示在分解层次j上第i个节点的能量值;${p_n}(j,i)$表示第j层第i个节点的n个小波包变换系数。每个样本通过小波包4层分解可以得到16维特征,由于本文采取前32个导联的EEG信号,因此最终得到的输入序列特征维度为$16 \times 32 = 512$

    • 本文采用的每个视频片段的基线长度为3 s。由于脑电信号的敏感性较强,因此正常生理活动下的脑电信号很容易对情绪变化时的脑电波造成影响。为了减小这个影响,需要对基线进行消除。本文通过小波包提取前3 s数据即基线的特征,然后将后60 s数据的特征分别减去基线特征,以消除基线的影响。

    • TCN模型与普通CNN模型的不同点主要在于该结构中的卷积是因果关系,任意一个时刻的状态都考虑了之前的全部状态。

      TCN模型的结构如图3所示。该模型结构主要为时序卷积层和全连接层,其中M表示一维卷积核的数量,d表示每个卷积核的大小,T表示每秒钟的序列长度,F表示输入序列的特征维度,本文设F=32(导联数)$ \times $16(频带数)=512。输入序列经过一维卷积核的作用得到$T \times M$的时序特征序列,使用修整线性单元(Rectified Linear Unit, ReLU)作为激活函数应用于每一个元素。全连接层用于分类,使用softmax计算当前时刻属于某一类别的概率。

      图  3  TCN结构图

      Figure 3.  TCN structure diagram

    • 因果卷积首次在WaveNet[18]中提出,是用于处理序列问题而提出来的一种卷积模型,这种卷积模型在某时刻t的预测不能与任何未来时刻的信息相关,如式(2)所示:

      其中,${{\rm{x}}_t}$表示t时刻的信息。可以看出该时刻的状态只与之前时刻的信息相关。因果卷积模型如图4所示。

      图  4  因果卷积模型

      Figure 4.  Casual convolution model

      可以看出使用因果卷积的每一个节点都只考虑在此之前的节点,可以很好地用来处理时间序列,但是如果需要考虑比较久远的信息,那么卷积的层数就必须随之增加,这样就会导致深度学习中常见的梯度消失、训练复杂、拟合效果差的问题,因此WaveNet同时提出了扩张卷积(Dilated Convolution)的概念。

    • 扩张卷积与普通的卷积相比除了卷积核的大小以外,还有一个扩张率(Dilation rate)参数,主要用来表示扩张的大小。普通卷积感受野的计算如式(3)所示:

      其中:${l_k}$是第k层的感受野大小;${f_k}$是当前层的卷积核大小;${S_i}$是第i层的步长。扩张卷积结构如图5所示,相当于在卷积核内部插入了d个0(d为扩张率),则扩张卷积的卷积核大小的计算如下:

      图  5  一维扩张卷积

      Figure 5.  One-dimensional expansion convolution

      其中,${f_k}\_d$表示加入扩张卷积之后的卷积核大小,可以看出扩张卷积的感受野得到了很大的提高。

      本文的输入数据是长度为16的一维脑电序列${{X}} = [{x_1},x_2,\cdots,{x_i}]$,设置步长s=1,卷积核${f_k}$=4,第k层的扩张率${d_k} = 3 \times {4^{k - 1}}$。通过计算可以得到:当不使用扩张卷积时,若要使输出考虑到该序列所有时刻状态需要4层的隐藏层单元(如图4所示),而使用扩张卷积时只需要1层的隐藏层单元(如图5所示)。

    • 残差模块[20]是一种深度神经网络,这种网络模型通过将前一层的信息跳层输入下一层,使得后层的信息更加丰富,能够很好地解决由于增加深度带来的副作用(退化问题)。TCN模型使用了残差模块。

    • 为了能够更好地训练TCN模型,本文采用Snapshot快照集成策略。该方法的原理是通过不断重置学习率来逃避局部极点值。学习率的重置如式(5)所示:

      其中:$\alpha \left( t \right)$表示第t次迭代的学习率;${\alpha _0}$表示初始学习率;nb_epochs表示训练过程总的迭代次数;nb_cycles表示循环次数,即学习率重置次数。

      每次迭代结束时保存当前模型,然后重置学习率为初始学习率进行下一次迭代,如此反复多次,保存多个模型进行集成,如图6所示。图中横坐标为迭代次数,纵坐标为训练过程的损失值。该训练过程设置的迭代次数为80,循环次数为8,即每10次迭代重置一次学习率。由图6可以看出,每次重置学习率都可以使训练过程跳出当前极值,且都能得到不错的收敛,保存训练过程每次循环所产生的模型。

      图  6  寻优过程图

      Figure 6.  Diagram of optimization process

    • 集成学习(Ensemble learning)是通过构建并结合多个机器学习模型来完成学习任务,在分类任务中投票法(Voting)是最常用的集成方式。

      在本文的模型寻优过程中,每一个局部极小值点的模型都进行了保存。由于这些模型之间存在差异性,因此采用投票集成的方法提高识别精度。如图7所示,通过Snapshot方法训练出来的n个TCN模型分别输出各自的识别结果,如类别1、类别2,如果输出类别1的模型数量多于输出类别2的模型数量就采用类别1作为最终识别结果,反之就采用类别2作为最终结果。

      图  7  投票集成过程

      Figure 7.  Process of voting ensemble

    • TCN模型在Keras框架下通过Python编程实现。实验环境Intel(R) Core(TM) I5-7700HQ CPU @2.80 Hz, 16 GB内存,NVIDIA GeForce GTX 950 M显卡,64位Windows10系统。

    • 将每个受试者的数据分成5份,每次取其中一份作为测试数据,其余作为训练数据。取5次交叉实验的识别精度均值作为最终结果,并在训练过程中再次将训练数据随机取出10%作为验证集。

      根据验证集确定TCN模型的部分参数,选择时间窗为1 s,并将每段信号按顺序每62.5 ms进行一次特征提取,故每秒钟的序列长度为16。此外,根据经验将卷积核数量设为50,卷积核长度设为4,当损失函数连续10次迭代都没有发生优化时训练终止。

      脑电信号一般被分为5个频段,依次为Delta、Theta、Alpha、Beta和Gamma,考虑到每个频段可能对情绪状态的敏感度不同,因此本文通过小波包分析提取出各个频段,讨论不同频段对脑电情感的不同影响。

      表1示出了18个受试者测试精度的平均值。可以看出对于Valence和Arousal二分类来说,Beta和Gamma频段相对于低频段的信号来说对情绪的反应更加敏感,对于A-V四分类来说Gamma频段更敏感,而当使用全部频段信息时其识别精度最高。

      EmotionAccuracy/%All
      DeltaThetaAlphaBeta Gamma
      Valence89.1088.5087.1091.5090.3094.70
      Arousal82.1083.3087.6090.8091.1092.90
      A-V83.7085.108584.9086.5090.70

      表 1  各频段信号的识别精度对比

      Table 1.  Comparison of recognition accuracy of signals in each frequency band

    • 由于支持向量机(SVM)是较为流行的非深度学习算法,而门控单元循环网络(GRU)是比较具有代表性的深度时序模型,因此本文采用SVM和GRU模型与TCN模型进行二分类和四分类的对比实验。实验结果表明,当惩罚因子C=2,核函数为线性核时,SVM模型验证集分类效果较好。当时间窗设为1 s,隐层单元数为100时,GRU模型验证集分类效果较好。

      二分类识别结果如图8图9所示,蓝色、绿色和黄色折线分别表示TCN、SVM、GRU模型在18个受试者上的平均测试精度。可以看到TCN模型的识别结果相对SVM模型有明显的提升,而GRU模型对比SVM模型也有一定的提升,但效果并不是特别明显,说明序列模型更适合于脑电信号识别研究。对比GRU模型,TCN模型不仅在识别精度上有很大的提升,而且在时间复杂度上也具有比较大的优势,其计算效率能够达到GRU模型的10~15倍。

      图  8  Valence二分类结果对比

      Figure 8.  Comparison of valence two classification results

      图  9  Arousal二分类结果对比

      Figure 9.  Comparison of arousal two classification results

      四分类识别结果如图10所示。可以看到在四分类问题中,SVM模型的效果并不理想,GRU模型相对于SVM模型有明显的提高,而TCN模型相对于GRU和SVM模型都有比较大的提升。

      图  10  A-V四分类结果对比

      Figure 10.  Comparison of A-V four classification results

    • 综合考虑模型集成的效果和计算复杂度选择循环次数为8,即通过调整学习率得到8个训练模型,18个受试者的测试结果如图11所示。绿色折线表示不加任何集成策略的TCN模型识别结果,黄色折线表示通过Snapshot策略寻得的最优模型的识别结果,蓝色折线表示将通过Snapshot思想得到的各个模型进行集成得到的识别结果。可以看出Snapshot对识别精度有略微的提升,而投票集成方式的识别结果相对于Snapshot寻得的最优模型也有一定的提高。

      图  11  Valence集成策略结果对比

      Figure 11.  Comparison of valence ensemble strategy results

    • 本文对比了其他采用DEAP数据集的情感识别研究,对比结果如表2所示。文献[21]通过自编码机制,编码阶段将脑电数据与眼电数据分开建模,解码阶段再组合到一起,形成高阶特征表示,使用SVM作为分类器,最终对Valence二分类达到了85.2%的识别精度,对Arousal二分类达到了80.5%的识别精度;文献[22]将使用残差神经网络(Residual Neural Network,ResNet)提取的特征融合线性频率倒谱系数(Linear Frequency Cestrum Coefficient, LFCC)作为最终特征,使用KNN作为分类器,最终对Valence得到90.39%的精度均值,对Arousal得到89.06%的精度均值;文献[23]考虑了每个受试者对实验音乐MV的熟悉度,证明了熟悉度对分类结果的影响比较大,采用分形维度(FD)和功率谱密度(PSD)作为特征,采用决策树对Valence的平均准确率为73.3%,对Arousal的平均准确率为72.5%;文献[24]使用Relief算法对32个通道进行特征选择,利用快速傅里叶变换(FFT)计算功率作为特征,使用概率神经网络(Probabilistic Neural Networks, PNN)作为分类器最终得到了对Valence 81.21%的平均准确率,对Arousal81.76%的平均准确率;文献[25]采用皮电、眼电等通道数据并为其单独设计特征并且评估了个人因素对实验的影响,提取PSD特征,使用随机森林算法,最终结果稳定在对Valence的精度均值为80.1%,对Arousal的精度均值为77.2%;文献[26]通过小波变换提取特征,使用RNN作为分类器,最后得到对Valence的平均识别精度为74.12%,对Arousal的平均识别精度为72.06%。其中文献[212326]使用了非深度学习算法,文献[222425]应用了深度学习算法。

      MethodAccuracy/%Category
      ValenceArousal
      Reference[21]85.2080.502
      Reference[22]90.3989.062
      Reference[23]73.3072.502
      Reference[24]81.2181.762
      Reference[25]80.1077.202
      Reference[26]74.1272.062
      Reference[27]84.9584.142
      Reference[28]88.3388.592
      TCN94.6792.892
      Proposed method96.4795.722

      表 2  两种情绪识别精度对比

      Table 2.  Comparison of two emotion recognition accuracy

      本文以5作为阈值,在Valence和Arousal两个维度上进行二分类,采用时间卷积网络模型取得了最好的平均精度,并通过Snapshot集成的思想对训练过程进行优化,使得精度进一步提高,实验结果验证了本文方法的可行性。

    • 本文在4种情绪的分类中也能够取得比较明显的效果,结果如表3所示。文献[29]去除了样本间一致性差的视频,共选取了17个视频作为实验数据,将数据进行分段,求取每段的alpha和beta波段的能量、beta和theta波段的能量比率、3个Hjorth参数、C0复杂度、方差和谱熵共计9个特征,采用KNN算法最后对4类情绪得到了70.04%的识别精度;文献[30]提出了一种针对脑电信号在HRI领域中使用的实时情绪估计方法获取与内在EEG模式相关的有意义的特征,使用高斯过程分类器(Gaussian-Process Classifier,GPC)最终得到四分类的识别精度为91.2%;文献[31]选取了所有通道中的15个通道,采用小波变换的特征,通过SVM和神经网络对情感进行识别。该文献对SVM的核函数进行了深入的研究,最终通过SVM得到88.22%的识别精度,通过神经网络可以得到90.2%的识别精度。

      MethodAccuracy/%Category
      Reference[29]70.044
      Reference[30]91.204
      Reference[31]90.204
      TCN90.684
      Proposed method92.494

      表 3  4种情绪识别精度对比

      Table 3.  Comparison of four emotion recognition accuracy

    • 本文提出了一种基于时序卷积网络的情感识别算法。该算法能够适应脑电信号的时序特征,克服了传统时序网络的计算复杂度过大的缺点,既有RNN的时序性又有CNN的并行计算的特点。采用Snapshot思想和集成思想对模型的训练进行了进一步的提高。对比了不同波段对情感的敏感性,得出脑电信号各频段间和情绪变化的关联,并对比了同类研究结果。实验结果表明本文方法在计算精度和算法复杂度上都有比较好的结果。

(11)  表(3) 参考文献 (31) 相关文章 (15)

目录

    /

    返回文章