高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于耳蜗图多示例分析的音频场景分类模型

    作者简介: 林巧颖(1995-),女,福建人,硕士生,主要研究方向为音频信号处理。E-mail:y30180621@mail.ecust.edu.cn;
    通讯作者: 陈宁, chenning_750210@163.com
  • 中图分类号: TP391

Acoustic Scene Classification Model Based on Multi-Instance Learning of Cochleagram

    Corresponding author: CHEN Ning, chenning_750210@163.com
  • CLC number: TP391

  • 摘要: 音频场景分类(Acoustic Scene Classification, ASC)是计算听觉场景领域最具挑战的任务之一。传统的ASC模型大多采用基于线性频率分析的手工特征加基于深度学习的分类模型方法。然而,一方面,由于基于线性频率分析的特征提取方法无法模拟人耳基底膜的非线性频率选择特性,从而造成特征分辨率低下的问题;另一方面,现有的分类模型无法解决由于音源复杂且音频事件高度重叠所造成的分类准确率低下的问题。为了解决以上问题,提出了基于耳蜗图多示例分析的音频场景分类模型,一方面采用中心频率按照等效带宽均匀分布的余弦滤波器组对信号频谱进行滤波以模拟人耳听觉感知特性;另一方面,通过引入多示例学习刻画整个数据结构的特点以提高分类准确率。此外,为了抵抗音频事件的频移影响,在多示例学习分类模型的分类预测整合器中采用平均池化方法。在DCASE 2018 和DCASE 2019竞赛所提供的Task1a数据集上的实验结果表明,本文提出的模型比DCASE 2018竞赛所提供的基线系统以及传统的基于Log Mel特征提取和多示例学习的模型实现了更高的分类准确率,同时也验证了平均池化要优于最大池化。
  • 图 1  ASC-MIL模型框图

    Figure 1.  Block diagram of ASC-MIL model

    图 2  多示例检测器K值对模型性能的影响

    Figure 2.  Influence of hyper-parameter K in multi-detector

    表 1  采样因子取值对滤波器个数的影响

    Table 1.  Effect of sample factor on the numbers of filters

    Sample factorLow-pass filterBand-pass filterHigh-pass filterNumber of filter
    11$n$1$n + 2$
    22$2 n + 1$2$2 n + 1 + 4$
    44$4 n + 3$4$4 n + 3 + 8$
    $s$$s$$s \left( {n + 1} \right) - 1$$s$$s \left( {n + 1} \right) - 1 + 2 s$
    下载: 导出CSV

    表 2  音频样本切分长度对模型性能的影响

    Table 2.  Performance comparison based on different lengths of audio segment

    Length/sSample factorDownsampling rateInput shapeAccuracy/%
    22400(65, 800)68.3
    42400(65, 1600)67.2
    62400(65, 2400)66.1
    82400(65, 3200)65.8
    102400(65, 4000)64.4
    下载: 导出CSV

    表 3  基于多示例学习的音频场景分类算法性能比较

    Table 3.  ASC Performance comparison based on multi-instance learning

    ModelFeatureNetworkAccuracy/%
    2018 Task 1A2019 Task 1A
    Literature [5]Log MelCNN + Fully connected layer58.952.4
    Literature [12]Log MelVGGNet + MIL (MaxPool)66.266.7
    ASC-MIL +SVMCochleagramASC-MIL+ SVM58.753.6
    ASC-MILSpectrogramASC-MIL(AvgPool)60.459.5
    ASC-MILMFCCASC-MIL(AvgPool)64.464.1
    ASC-MILCochleagramASC-MIL (MaxPool)67.267.9
    ASC-MILCochleagramASC-MIL(AvgPool)68.368.9
    下载: 导出CSV
  • [1] CHU S, NARAYANAN S, KUO C J, et al. Where am i? scene recognition for mobile robots using audio features[C]//2006 IEEE International Conference on Multimedia and Expo. Canada: IEEE, 2006: 885-888.
    [2] SCHILIT B, ADAMS N, WANT R. Context-aware computing applications[C]//1994 IEEE Workshop on Mobile Computing Systems and Applications. USA: IEEE, 1994: 85–90.
    [3] ERONEN A J, PELTONEN V T, TUOMI J T, et al. Audio-based context recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(1): 321-329. doi: 10.1109/TSA.2005.854103
    [4] MULIMANI M, KOOLAGUDI S G. Acoustic scene classification using MFCC and MP features[C]//2016 Detection and Classification of Acoustic Scenes and Events. DCASE, 2016: Tech. Rep.
    [5] KONG Q, IQBAL T, XU Y, et al. DCASE 2018 challenge baseline with convolutional neural networks[C]//Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop. UK: Tampere University, 2018: 217-221.
    [6] VALENTI M, SQUARTINI S, DIMENT A, et al. A convolutional neural network approach for acoustic scene classification[C]//2017 International Joint Conference on Neural Networks (IJCNN). USA: IEEE, 2017: 1547-1554.
    [7] XU Y, KONG Q, WANG W, et al. Large-scale weakly supervised audio classification using gated convolutional neural network[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). USA: IEEE, 2018: 121-125.
    [8] ABEßER J. A review of deep learning based methods for acoustic scene classification[J]. Applied Sciences, 2020, 10(6): 1-16.
    [9] SHARAN R V, MOIR T J. Pseudo-color cochleagram image feature and sequential feature selection for robust acoustic event recognition[J]. Applied Acoustic, 2018, 140: 198-204. doi: 10.1016/j.apacoust.2018.05.030
    [10] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. doi: 10.1038/nature14539
    [11] PELTONEN V T, ERONEN A J, PARVIAINEN M P, et al. Recognition of everyday auditory scenes: Potentials, latencies and cues[C]//Proceedings of the 110th Convention of the Audio Engineering Society. Amsterdam: AES, 2001: 1-5.
    [12] SONG H W, HAN J Q, DENG S W, et al. Acoustic scene classification by implicitly identifying distinct sound events[C]// Proceedings of the Annual Conference of the International Speech Communication Association. Austria: INTERSPEECH, 2019: 3860-3864.
    [13] AMORES J. Multiple instance classification: Review, taxonomy and comparative study[J]. Artificial Intelligence, 2013, 201: 81-105. doi: 10.1016/j.artint.2013.06.003
    [14] KUMAR A, RAJ B. Audio event detection using weakly labeled data[C]//Proceedings of the 24th ACM International Conference on Multimedia. USA: ACM, 2016: 1038-1047.
    [15] WANG Y. Polyphonic sound event detection with weak labeling[D]. Pittsburgh: Carnegie Mellon University, 2018.
    [16] KUMAR A, RAJ B. Audio event and scene recognition: A unified approach using strongly and weakly labeled data[C]//2017 International Joint Conference on Neural Networks (IJCNN). USA: IEEE, 2017: 3475-3482.
    [17] BRIGGS F, LAKSHMINARAYANAN B, NEAL L, et al. Acoustic classification of multiple simultaneous bird species: A multi-instance multi-label approach[J]. The Acoustical Society of America, 2012, 131(6): 4640-4650. doi: 10.1121/1.4707424
    [18] MC DERMOTT J H, SIMONCELLI E P. Sound texture perception via statistics of the auditory periphery: Evidence from sound synthesis[J]. Neuron, 2011, 71: 926-940. doi: 10.1016/j.neuron.2011.06.032
    [19] KONG Q, CAO Y, IQBAL T, et al. Cross-task learning for audio tagging, sound event detection and spatial localization: Dcase 2019 baseline systems[EB/OL]. arXiv. org, (2019-04-06)[2020-11-01], https://arxiv.org/abs/1904.03476v3.
    [20] FENG J, ZHOU Z. Deep MIML network[C]// Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017: 1884-1890.
    [21] SONG H W, HAN J Q, DENG S W. A Compact and discriminative feature based on auditory summary statistics for acoustic scene classification[C]//Proceedings of the Annual Conference of the International Speech Communication Association. Hyderabad: INTERSPEECH, 2018: 3294-3298.
  • 加载中
图(2)表(3)
计量
  • 文章访问数:  59
  • HTML全文浏览量:  83
  • PDF下载量:  2
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-11-24
  • 网络出版日期:  2021-03-24

基于耳蜗图多示例分析的音频场景分类模型

    作者简介:林巧颖(1995-),女,福建人,硕士生,主要研究方向为音频信号处理。E-mail:y30180621@mail.ecust.edu.cn
    通讯作者: 陈宁, chenning_750210@163.com
  • 华东理工大学信息科学与工程学院,上海 200237

摘要: 音频场景分类(Acoustic Scene Classification, ASC)是计算听觉场景领域最具挑战的任务之一。传统的ASC模型大多采用基于线性频率分析的手工特征加基于深度学习的分类模型方法。然而,一方面,由于基于线性频率分析的特征提取方法无法模拟人耳基底膜的非线性频率选择特性,从而造成特征分辨率低下的问题;另一方面,现有的分类模型无法解决由于音源复杂且音频事件高度重叠所造成的分类准确率低下的问题。为了解决以上问题,提出了基于耳蜗图多示例分析的音频场景分类模型,一方面采用中心频率按照等效带宽均匀分布的余弦滤波器组对信号频谱进行滤波以模拟人耳听觉感知特性;另一方面,通过引入多示例学习刻画整个数据结构的特点以提高分类准确率。此外,为了抵抗音频事件的频移影响,在多示例学习分类模型的分类预测整合器中采用平均池化方法。在DCASE 2018 和DCASE 2019竞赛所提供的Task1a数据集上的实验结果表明,本文提出的模型比DCASE 2018竞赛所提供的基线系统以及传统的基于Log Mel特征提取和多示例学习的模型实现了更高的分类准确率,同时也验证了平均池化要优于最大池化。

English Abstract

  • 与语音和音乐信号不同,场景相关的声音信号携带着大量日常生活环境以及发生于其中的事件信息。由于音频场景中大部分音频信号为短时非平稳信号,不具备固定的音源,声源复杂且音频事件高度重叠,适用于语音与音乐分类的方法已不再适用于音频场景分类,因此音频特征的有效提取以及基于深度学习的分类模型的建立对音频场景分类任务至关重要。目前,研究能够表现音频场景中的典型示例的特征提取方法,并在此基础上实现有效的场景分类已成为该领域的研究热点,其潜在的应用领域包括机器人导航系统[1]、情境感知设备[2],以及可根据音频场景进行自动模式切换的智能手机[3]

    传统的用于音频场景分类的特征提取模型大多借鉴语音信号处理和听觉感知技术,如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)[4]。这类特征抗干扰性强,但只能分析信号的短时特征,无法完整刻画整个音频数据的结构特点,存在一定的局限性。一些学者提出利用对数梅尔频谱特征(Log Mel Spectrogram)[5-7]保留高频能量,从而对场景音频中的大动态范围[8]进行有效补充。然而,由于场景音频信号是自然音频信号,存在较多的背景噪声,频率变化剧烈,且大多数频谱能量位于低频范围[9],对数梅尔频谱特征亦存在一定局限性。

    在特征分类方面,一些研究人员提出用结合递归神经网络(Recurrant Neural Network, RNN)和K-近邻(K-Nearest Neighbor, KNN)准则的分类器。此后,考虑到音频样本中音频事件在时域上的演进,研究者又提出采用隐马尔可夫模型(Hidden Markov Model, HMM)刻画声音频谱分量在时域的上下文信息,从而提高识别精度。近年来,随着深度学习的发展[10],基于卷积神经网络(CNN)的分类模型被成功地引入场景分类领域。

    最新的研究表明,特殊音频事件的识别有助于提高音频场景的分类准确性[11]。此类音频场景分类模型首先对音频事件进行检测,然后在此基础上进行音频场景分类。由于音频事件之间存在重叠且声源数量未知,音频事件的检测相对较为困难。为了解决这一问题,文献[12]提出基于多示例学习的场景分类方法。传统的训练方法中,音频场景由单一的特征向量表示。而多示例学习(Multi Instance Learning, MIL)算法则是用示例包(包含多个特征向量)来表示目标音频场景,场景标签为示例包标签,而非示例包内具体示例。多示例学习旨在训练出基于场景示例包的分类器[13]。该模型目前已成功应用于音频事件检测[14-16]和鸟声分类[17]等领域。

    目前现有的算法仍无法实现像人耳那样对听觉场景准确地分类。主要原因包括两个方面:第一,现有的特征提取算法大多基于频率的线性分隔,这与人耳基底膜的非线性频率选择特性不匹配,从而造成特征分辨率低下的问题;第二,没有将人耳听觉感知特性与多示例分析有机地结合,从而造成分类准确率不高的问题。

    为了解决以上问题,本文提出了基于耳蜗图多示例分析的音频场景分类模型(ASC-MIL)。首先,利用中心频率信号呈对数分布的滤波器组对音频进行滤波并构造耳蜗图[18];然后,将耳蜗图输入VGGNet网络提取其深层语义特征;最后,对深层语义特征进行多示例分析,捕捉其场景标签之间的潜在关系[20]。其中,在多示例学习方法的分类预测整合器中采用了平均池化方法,可以有效地保留音频场景的整体特征以及音频场景背景噪声特征。在DCASE 2018 Task 1A和DCASE 2019 Task 1A数据集上的实验结果表明,本文模型取得了比文献[12]更高的分类准确率。

    • ASC-MIL的模型框图如图1所示,主要由基于耳蜗图分析的特征提取模块和基于多示例分析的分类模块组成。

      图  1  ASC-MIL模型框图

      Figure 1.  Block diagram of ASC-MIL model

    • 在特征提取阶段,为了模拟人耳听觉感知特性,采用了文献[18]提出的耳蜗图分析方法。

      首先,采用式(1)所示的等效矩形带宽余弦滤波器(Equivalent Rectangular Bandwidth Cosine Filter)组成的滤波器组对输入信号进行滤波。

      其中:${f_{{\rm{ERB}}}} = 9.265\lg \left(\dfrac{f}{{24.7 \times 9.265}} + 1\right)$,是线性频率$f$转换成等效矩形带宽(Equivalent Rectangular Bandwidth, ERB)度量的频率表示;${f_{{\rm{c}} - {\rm{ERB}}}}$为滤波器的中心频率;${B_{{\rm{ERB}}}}$为滤波器的带宽。滤波器组中包含的滤波器总数$N$由采样因子$s$与带通滤波器个数$n$决定,计算公式如下:

      其次,从人耳感知特性上看,声音信号的包络携带可用于重建听觉感知难以区分的信息,采用低通滤波器对各滤波器组的输出进行滤波以提取其包络信息。

      为了模拟耳蜗可对不同程度的声音进行非线性压缩的特性,对各滤波的包络输出进行非线性压缩处理,得到压缩包络。非线性处理如式(3)所示,

      其中:${{X}_{{\rm{se}}}}$表示滤波包络;${{X}_{{\rm{nl}}}}$表示压缩包络。

      文献[18]提出压缩包络的幅度在高频部分取值通常很低,对听觉感知特性的表征影响不大。因此,为了进一步提高模型的计算效率,本文采用文献[18]的处理方式,对压缩包络进行采样率为400 Hz的降采样处理。所得的音频样本听觉感知特征记为${X}$

    • 图1所示,基于多示例分析的分类模块由音频示例生成器(Instance generator)、音频示例检测器(Instance detectors)以及分类预测整合器(Prediction aggregator)组成。

    • 音频示例生成器的作用是将特征提取阶段所获得的音频样本听觉感知特征${X}$映射为音频示例包,记为$\left\{ {{{x}_j}} \right\}_{j = 1}^m$,其中${{x}}_j \in {\bf{R}}^d$$j$为示例包中的示例序号,$m$表示每个示例包中示例的数量。本文采用基于VGGNet的示例生成器,与应用于听觉场景分类的VGGNet不同的是,本文中VGGNet没有采用最大池化层,而是采用了平均池化层。因为文献[19]指出,对卷积层的特征图中的频率信息求平均能帮助音频场景分类模型抵抗音频事件的频移影响。VGGNet由4个卷积块组成,深度分别为32、64、128和256。同时,为了提高训练速度并防止过拟合,神经网络的输入均经过批标准处理(Batch Normalization, BN),每个卷积层的输出都与批标准化层和线性修正单元(Rectified Linear Unit, Relu)相连。VGGNet所提取的高层语义特征再经过一层深度为512的$3 \times 3$二维卷积与一层$2 \times 2$二维卷积,最终得到音频示例特征向量。

    • 考虑到每个音频场景包含多个音频事件,为了捕获多示例与多个音频场景标签之间的潜在关系,采用文献[20]提出的Sub-concepts层作为音频场景多示例检测器。假定每个音频场景标签具有若干个Sub-concepts,而多示例检测器中的Sub-concepts层能够模拟单个音频示例与所有音频场景标签的Sub-concepts之间的匹配分数。示例j与音频场景l的第k个Sub-concepts之间的匹配分数记为${{a}_{jlk}}$,可由公式(4)计算:

      其中:${{w}_{lk}}$${{b}_{lk}}$分别表示音频示例${{x}_j}$与音频场景$l$的第$k$个Sub-concepts之间的匹配模板的权重和偏置;$l = 1, \cdots ,L$$k = 1, \cdots ,K$$L$表示音频场景类别数量;$K$表示每个音频场景所检测到的音频示例数量最大值。

      考虑到音频场景标签的Sub-concepts数量可能少于$K$个,为了提高模型对Sub-concepts数量的鲁棒性,${{a}_{jlk}}$经过式(5)所示的最大池化处理,得到每个示例与对应场景标签之间的匹配分数${{a}_{jl}}$,从而实现从音频样本到音频场景示例包的映射。

      采用式(6)所示的softmax分类器将匹配分数${{a}_{jl}}$映射为音频场景分类标签的预测${{\hat y}_{il}}$

    • 分类预测整合器通过对输入的$m$个音频示例的分类预测结果进行整合,获得输入音频样本的分类标签,记为${\hat Y} = \{ {{{{\hat Y}}_l}\left| {l = 1, \cdots ,L} \right.} \}$。采用式(7)所示的平均池化处理,目的是帮助音频场景分类模型抵抗音频事件的频移影响[19]

      对于每类音频场景,其负示例包数量为正示例包的$L - 1$倍,存在正负示例包数据不均衡问题。本文对每个音频场景类别采用加权二进制交叉熵损失函数,如式(8)所示。通过调节$\alpha $来分配某个样本所引起的损失占所有类别的损失总和的权重。

      为了防止过拟合,在每个卷积块的二维卷积层后增加了舍弃概率为0.5的Dropout层。

    • 实验分别采用DCASE 2018 Task 1A和DCASE 2019 Task 1A数据集作为实验对象。其中DCASE 2018 Task 1A包含8 640段采样率为44.1 kHz、长度为10 s的来自6个欧洲城市的机场、巴士、地铁站、街道-人行道、街道-机动车道、广场、电车、地铁车厢、公园共10个音频场景的样本,总时长为24 h。DCASE 2019 Task 1A包含14 400段采样率为48 kHz、长度为10 s的来自12个欧洲城市的10个同样音频场景的样本。DCASE 2018 Task 1A和DCASE 2019 Task 1A中训练集和验证集的数目分别为6 122∶2 518和10 080∶4 186。

    • 式(1)中线性频率${f_{}}$取值范围为50~20 000 Hz,相对应的等效矩形带宽度量的频率表示为${f_{50 - {\rm{ERB}}}}$~${f_{20000 - {\rm{ERB}}}}$。将等效矩形带宽度量范围(${f_{50 - {\rm{ERB}}}}$, ${f_{20000 - {\rm{ERB}}}}$)根据带通滤波器的个数进行平均划分,划分所得间距为带宽${B_{{\rm{ERB}}}}$

      式(2)中采样因子$s$表征了等效矩形带宽余弦滤波器组中带通滤波器分布的疏密程度。当$s$分别取1、2、4时,相邻带通滤波器之间分别重叠50%、75%、87.5%。此外,$s$还决定了滤波器组所包含的低通滤波器与高通滤波器的个数。具体取值见表1

      Sample factorLow-pass filterBand-pass filterHigh-pass filterNumber of filter
      11$n$1$n + 2$
      22$2 n + 1$2$2 n + 1 + 4$
      44$4 n + 3$4$4 n + 3 + 8$
      $s$$s$$s \left( {n + 1} \right) - 1$$s$$s \left( {n + 1} \right) - 1 + 2 s$

      表 1  采样因子取值对滤波器个数的影响

      Table 1.  Effect of sample factor on the numbers of filters

      为了在计算效率和特征分辨率之间进行平衡,本文采用$s = 2$时的滤波器组对输入进行非线性频率映射。

    • 考虑到某些出现概率极低的音频事件可能对整段音频的场景分类产生重大影响,文献[21]采用对音频样本进行分割的方法,将罕见音频事件限制于少数音频片段,从而降低对整段音频场景的影响。因此,在数据预处理阶段,本文首先对输入音频进行分割预处理再进行耳蜗图特征提取。

    • 音频片段的长度对模型性能有一定的影响,片段越短,音频场景的分类准确率相对越高。同时,分割后的音频片段所提取的耳蜗图特征维度较小,系统处理速度快,具有较强的实时性。本文以DCASE 2018 Task 1A数据集作为实验对象,均以音频时长为2 s的音频片段进行实验,表2示出了实验结果。

      Length/sSample factorDownsampling rateInput shapeAccuracy/%
      22400(65, 800)68.3
      42400(65, 1600)67.2
      62400(65, 2400)66.1
      82400(65, 3200)65.8
      102400(65, 4000)64.4

      表 2  音频样本切分长度对模型性能的影响

      Table 2.  Performance comparison based on different lengths of audio segment

    • 为了验证耳蜗图特征提取方法对分类性能的影响,分别采用语谱图(Spectrogram)、MFCC以及耳蜗图特征作为模型的输入,表3示出了实验结果。可以看出耳蜗图特征优于语谱图和MFCC特征。可能原因是耳蜗图特征能够模拟人耳基底膜的频率选择特性,因此提高了特征的分辨率,能更有效地刻画场景音频的整体特征。

      ModelFeatureNetworkAccuracy/%
      2018 Task 1A2019 Task 1A
      Literature [5]Log MelCNN + Fully connected layer58.952.4
      Literature [12]Log MelVGGNet + MIL (MaxPool)66.266.7
      ASC-MIL +SVMCochleagramASC-MIL+ SVM58.753.6
      ASC-MILSpectrogramASC-MIL(AvgPool)60.459.5
      ASC-MILMFCCASC-MIL(AvgPool)64.464.1
      ASC-MILCochleagramASC-MIL (MaxPool)67.267.9
      ASC-MILCochleagramASC-MIL(AvgPool)68.368.9

      表 3  基于多示例学习的音频场景分类算法性能比较

      Table 3.  ASC Performance comparison based on multi-instance learning

    • 为了验证分类器对模型性能的影响,分别采用SVM、最大池化层(MaxPool)和平均池化层(AvgPool)作为分类器。表3的实验结果表明,平均池化层在音频场景分类任务优于最大池化层和SVM分类器。可能的原因是,平均池化层将音频帧级的分类概率求平均得到音频样本的分类概率,可在一定程度上解决音频事件频移对场景分类的影响[19]

    • 为了进一步验证ASC-MIL模型优于其他音频场景分类模型,实验比较了2018年DCASE Task1 Subtask B官方基线模型[5]、文献[12]提出的模型和ASC-MIL模型的分类准确率,实验结果如表3所示。结果表明:(1)相较于2018年DCASE Task1 Subtask B官方基线模型,ASC-MIL模型在2018 Task 1A和2019 Task 1A数据集上分类准确率分别提高了9.4%和16.5%;(2)相较于文献[12]提出的模型,ASC-MIL模型在2018 Task 1A和2019 Task 1A数据集上分类准确率分别提高了2.1%与2.2%。

      性能提升的可能原因如下:第一,ASC-MIL模型通过加深网络结构的方式在音频特征的基础上提取出更高层、抽象的语义特征,从而提高模型性能。第二,高级语义特征与多示例学习方法结合,在无需对具体音频事件进行标注的情况下,可检测到多示例与多标签之间的潜在关系[21],对场景分类有一定的帮助。

    • 超参数K值表示每个音频场景所检测到的音频示例数量的最大值。为了检测音频多示例检测器中超参数K的取值对模型性能的影响,选择2018 Task 1A数据集作为实验对象。图2示出了ASC-MIL模型采用不同K值时所得的分类准确率结果,可以看出增加K值不一定会提高分类性能。可能的原因是,当K值较大时,模型在每个音频场景中所学习的音频示例检测器的区分性可能会下降。模型在K=7时达到最高分类准确率。

      图  2  多示例检测器K值对模型性能的影响

      Figure 2.  Influence of hyper-parameter K in multi-detector

    • 本文提出了一种结合人耳听觉感知特性和多示例学习机制的音频场景分类模型。该模型在特征提取阶段,利用中心频率呈对数分布的滤波器组对输入音频进行滤波以模拟人耳基底膜的频率选择特性,从而提高了特征的分辨率。同时引入了多示例学习机制对特征进行分类,从而解决了音源复杂且音频事件高度重叠所造成的分类准确率低下的问题。实验结果表明,与传统的基于深度学习的模型相比,本文模型实现了更高的分类准确率。为了进一步降低算法复杂度,未来可考虑通过引入图卷积神经网络对场景内示例之间的相关性进行学习,从而帮助音频场景的分类。

(2)  表(3) 参考文献 (21)

目录

    /

    返回文章