高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于残差注意力U-Net结构的端到端歌声分离模型

    作者简介: 汪 斌(1996—),女,安徽人,硕士生,主要研究方向为音乐源分离和音频信号处理。E-mail:y45180173@mail.ecust.edu.cn;
    通讯作者: 陈宁, chenning_750210@163.com
  • 中图分类号: TP391

AN End-to-End Singing Voice Separation Model Based on Residual Attention U-Net

    Corresponding author: CHEN Ning, chenning_750210@163.com
  • CLC number: TP391

  • 摘要: 歌声分离是音乐信息检索领域最具挑战的任务之一,本文对基于Wave-U-Net的歌声分离模型进行了改进以增强其性能。首先,在Wave-U-Net的编码和解码块中设计并引入了残差单元以增强其特征提取有效性和训练效率;然后,在Wave-U-Net的跳跃连接部分设计并引入了注意力门控机制以减少从编码块对应层提取的特征和来自解码块上一层特征之间的语义鸿沟。在MUSDB18数据集上的实验结果表明:本文提出的RA-WaveUNet模型在分离性能上优于传统的Wave-U-Net模型;采用残差单元和注意力门控机制均有助于提高模型的性能。
  • 图 1  RA-WaveUNet模型框图

    Figure 1.  Block diagram of RA-WaveUNet model

    图 2  普通神经单位与3种不同残差单元的对比

    Figure 2.  Comparison between the plain neural unit and three different kinds of residual units

    图 3  注意力门控结构

    Figure 3.  Architecture of attention gate

    图 4  不同层数M4-R3模型的训练参数数量对比

    Figure 4.  Parameter numbers comparison of M4-R3 models with different numbers of layers

    图 5  不同层数M4-R3模型的性能对比

    Figure 5.  Performances achieved by M4-R3 models with different numbers of layers

    表 1  RA-WaveUNet模型结构细节

    Table 1.  Architecture details of RA-WaveUNet model

    BlockOperationOutput Shape
    Input$16384 \times 2$
    Encoding block $i$E-Residual unit $i$
    $i = 1,...,10$Decimation$16 \times 240$
    Bridge blockResidual unit 11$16 \times 264$
    Decoding block $i$Linear interpolation$32 \times 264$
    Concat(Att(E-Residual unit $i$))$32 \times 504$
    $i = 10,...,1$D-Residual unit $i$
    Output$16384 \times 2$
    下载: 导出CSV

    表 2  引入不同类型残差单元后Wave-U-Net的性能对比

    Table 2.  Performance comparison of Wave-U-Net with different types of residual units

    SchemesVocalsAccompaniment
    Med./
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    Med. /
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    M44.463.210.6513.6710.693.1511.857.03
    M4-R14.633.301.1313.1110.733.1012.217.09
    M4-R24.493.150.3414.0510.473.0111.726.77
    M4-R35.043.341.4313.2710.933.0912.406.90
    下载: 导出CSV

    表 3  BN层对源分离性能的影响

    Table 3.  Influence of BN layer on the separation performance.

    SchemesVocalsAccompaniment
    Med. /
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    Med. /
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    M44.463.210.6513.6710.693.1511.857.03
    M4-R14.633.301.1313.1110.733.1012.217.09
    M4-R1+BN4.503.22014.8410.562.9811.467.16
    M4-R24.493.150.3414.0510.473.0111.726.77
    M4-R2+BN4.383.23−0.5415.5710.382.9311.186.53
    M4-R35.043.341.4313.2710.933.0912.406.90
    M4-R3+BN4.793.310.2814.8410.853.0711.816.64
    下载: 导出CSV

    表 4  注意力门控机制对性能的影响

    Table 4.  Contribution of the attention gate to the performance

    SchemesVocalsAccompaniment
    Med. /
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    Med. /
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    M44.463.210.65 13.6710.693.1511.857.03
    M4-A4.523.270.9113.2910.723.0912.036.98
    M4-R3-104.893.331.2813.2710.933.0912.286.84
    RA-WaveUnet4.993.281.5413.0910.973.0912.386.96
    下载: 导出CSV

    表 5  与最新SVS模型的性能对比

    Table 5.  Performance comparison with state-of-the-arts SVS models

    SchemesVocalsAccompaniment
    Med. /
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    Med. /
    dB
    MAD/
    dB
    Mean/
    dB
    SD/
    dB
    M44.463.210.6513.6710.693.1511.857.03
    MHE0[13]4.693.240.7513.9110.883.1312.106.77
    HydraNet+ H7[14]1.664.7510.712.90
    U310[17]4.843.331.0913.5710.913.1412.266.84
    RA-WaveUnet4.993.281.5413.0910.973.0912.386.96
    下载: 导出CSV
  • [1] LI Y P, WANG, D L. Separation of singing voice from music accompaniment for monaural recordings[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1475-1487. doi: 10.1109/TASL.2006.889789
    [2] SALAMON J, GOMEZ E, ELLIS D, et al. Melody extraction from polyphonic music signals: Approaches, applications, and challenges[J]. IEEE Signal Processing Magazine, 2014, 31(2): 118-134. doi: 10.1109/MSP.2013.2271648
    [3] KUM S, NAM J. Joint detection and classification of singing voice melody using convolutional recurrent neural networks[J]. Applied Sciences, 2019, 9(7): 1324-1341. doi: 10.3390/app9071324
    [4] YOU S D, LIU C H, CHEN W K. Comparative study of singing voice detection based on deep neural networks and ensemble learning[J]. Human-Centric Computing and Information Sciences, 2018, 8(1): 34-50. doi: 10.1186/s13673-018-0158-1
    [5] SHARMA B, DAS R K, LI H Z. On the importance of audio-source separation for singer identification in polyphonic music[C]//Conference of the International Speech Communication Association (INTERSPEECH). Graz Austria: IEEE, 2019: 2020-2024.
    [6] PABLO S, ALEXANDER M B, GUILLERMO S. Real-time online singing voice separation from monaural recordings using robust low-rank modeling[C]//International Society for Music Information Retrieval (ISMIR). Porto Portugal: INESC TEC, 2012: 67-72.
    [7] IKEMIYA Y, YOSHII K, ITOYAMA K. Singing voice analysis and editing based on mutually dependent F0 estimation and source separation[C]//2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brisbane Australia: IEEE, 2015: 574-578.
    [8] 赵天坤. 基于深度神经网络的音乐信息检索[D]. 北京: 北京邮电大学, 2015.
    [9] SIMPSON A J R, ROMA G, PLUMBLEY M D. Deep karaoke: Extracting vocals from musical mixtures using a convolutional deep neural network[C]// 12th International Conference on Latent Variable Analysis and Signal Separation (LVA). Czech Republic: Springer, 2015: 429-436.
    [10] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI). Munich Germany: Springer, 2015: 234-241.
    [11] JANSSON A, HUMPHREY E J, MONTECCHIO N, et al. Singing voice separation with deep U-Net convolutional networks[C]//Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). Suzhou China: National University of Singapore, 2017: 323-332.
    [12] STOLLER D, EWERT S, DIXON S. Wave-u-net: A multi-scale neural network for end-to-end audio source separation[C]//International Society for Music Information Retrieval (ISMIR). Paris France: Télécom ParisTech and IRCAM, 2018: 334-340.
    [13] JOAQUIN PEREZ-LAPILLO, OLEKSANDR GALKIN, TILLMAN WEYDE. Improving singing voice separation with the Wave-U-Net using minimum hyperspherical energy[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Virtual Barcelona: IEEE, 2020: 3272-3276.
    [14] KASPERSEN E T, KOUNALAKIS T, ERKUT C. Hydranet: A real-time waveform separation network[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Virtual Barcelona: IEEE, 2020: 4327-4331.
    [15] HE K, ZHANG X, REN S, et al Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Cecognition (CVPR). Las Vegas America: IEEE, 2016: 770-778.
    [16] IBTEHAZ N, RAHMAN M S. Multiresunet: Rethinking the U-net architecture for multimodal biomedical image segmentation[J]. Neural Networks, 2020, 121(1): 74-81.
    [17] CHEN B W, HSU Y M, LEE H Y. J-Net: Randomly weighted U-Net for audio source separation[J]. arXiv preprint arXiv: 1911.12926, 2019.
    [18] JO SCHLEMPER, OZAN Oktay, MICHIEL SCHAAP, et al. Attention gated networks: Learning to leverage salient regions in medical images[J]. Medical Image Analysis, 2019, 53(1): 197-207.
    [19] SAUMYA JETLEY, NICHOLAS A L, LEE N, et al. Learn to pay attention[C]//Proceedings of International Conference on Learning Representation (ICLR). Vancouver Canada: IEEE, 2015: 1-14.
    [20] ZAFAR RAFII, ANTOINE LIUTKUS, FABIAN-ROBERT STÖTER, et al. MUSDB18: A corpus for music separation[J]. [2017-12-17]. http://doi.org/10.5281/zenodo.1117372.
    [21] LIUTKUS A, FITZGERALD D, RAFIFII Z. Scalable audio separation with light kernel additive modelling[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brisbane Australia: IEEE, 2015: 76-80.
    [22] VINCENT E, GRIBONVAL R, FEVOTTE C. Performance measurement in blind audio source separation[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1462-1469. doi: 10.1109/TSA.2005.858005
    [23] KINGMA D P, BA J. Adam: A method for stochastic optimization[C]//The 3rd International Conference for Learning Representations (ICLR). San Diego USA: IEEE, 2015: 1-15.
  • 加载中
图(5)表(5)
计量
  • 文章访问数:  307
  • HTML全文浏览量:  231
  • PDF下载量:  5
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-09-03
  • 网络出版日期:  2020-12-16

基于残差注意力U-Net结构的端到端歌声分离模型

    作者简介:汪 斌(1996—),女,安徽人,硕士生,主要研究方向为音乐源分离和音频信号处理。E-mail:y45180173@mail.ecust.edu.cn
    通讯作者: 陈宁, chenning_750210@163.com
  • 华东理工大学信息科学与工程学院,上海 200237

摘要: 歌声分离是音乐信息检索领域最具挑战的任务之一,本文对基于Wave-U-Net的歌声分离模型进行了改进以增强其性能。首先,在Wave-U-Net的编码和解码块中设计并引入了残差单元以增强其特征提取有效性和训练效率;然后,在Wave-U-Net的跳跃连接部分设计并引入了注意力门控机制以减少从编码块对应层提取的特征和来自解码块上一层特征之间的语义鸿沟。在MUSDB18数据集上的实验结果表明:本文提出的RA-WaveUNet模型在分离性能上优于传统的Wave-U-Net模型;采用残差单元和注意力门控机制均有助于提高模型的性能。

English Abstract

  • 大多数音乐录制文件,例如来自YouTube、Spotify、网易云音乐的文件,以多个音源共享一个音轨的混合形式发布。将混合音频分离成单个音源的过程称为音乐源分离(Music Source Separation, MSS)。歌声分离(Singing Source Separation, SVS)是音乐源分离的一种特例,分离过程中将所有的乐器都视为一个音源,目标是将混合音频分离为歌唱人声和背景音乐伴奏两种音源[1]。近年来,由于在音乐旋律提取[2]、音乐流派分类[3]、歌声检测[4]、歌手识别[5]等方面的潜在应用,SVS已成为音乐信息检索(Music Information Retrieval, MIR)领域的研究热点。

    基于非负矩阵分解(Non-negative Matrix Factorization,NMF)[6]的方法以及基于F0估计的方法[7]是用于歌声分离任务的传统监督方法。随着深度学习技术在音乐信息检索领域的迅猛发展[8],基于深度神经网络的歌声分离技术受到了学术界的关注。文献[9]第一次将卷积神经网络(Convolutional Neural Network,CNN)结构引入SVS任务,但是所提出模型的层数较深,训练比较困难,同时由于用于SVS任务的公开数据集较小,因此模型的泛化能力很难得到保证。为了解决上述问题,一种最初用于医学图像语义分割任务的编—解码器结构U-Net[10]在文献[11]中被首次应用于SVS任务。该方法利用U-Net结构分析混合音频的语谱图,然后通过预测对应于单个音源的时频掩码来达到分离音源的目的。U-Net结构在SVS任务中的优势是:一方面,其编—解码结构使得其在有限的训练样本下进行有效的训练成为可能;另一方面,编码块和解码块中包含的多个连通卷积层有助于从语谱图中提取语义特征。

    然而,基于U-Net语谱图掩码分析的SVS模型仅仅采用语谱图的幅度谱作为模型输入,将分离出的单个音源的幅度谱与混合音频的相位谱相结合后使用逆短时傅里叶变换来恢复单个音源音频。越来越多的研究结果表明,相位信息的缺失对源分离的性能有很大影响,因此文献[12]提出了一种Wave-U-Net的端到端SVS模型。与U-Net使用语谱图的幅度谱作为模型输入不同,Wave-U-Net模型直接采用混合音乐的原始波形作为输入。最近,越来越多的基于Wave-U-Net的SVS模型被相关研究者提出。文献[13]提出应用最小超球能(Minimum Hyperspherical Energy, MHE)正则化来进一步提高Wave-U-Net的分离性能。文献[14]提出在Wave-U-Net结构中整合递归层来探索音频信号中更长的时间相关性。从模型设计角度,本文认为基于Wave-U-Net的SVS模型的性能可以从以下几个方面进一步提升。

    (1)传统的Wave-U-Net结构中,编码块和解码块都是由具有校正线性单元(Rectified Linear Units, ReLUs)激活函数的单个卷积层组成,当前层只与前一层相关并且只影响下一层。众所周知,深度学习模型可以通过隐藏层的不断加深来抽象组合更高层次的语义特征,但是这种结构下层数的增加很容易使模型陷入梯度消失问题[15]

    (2)传统的Wave-U-Net结构通过跳跃连接将编码块中对应卷积层的输出与解码块中当前层的前一层输出直接拼接。然而,由于前者包含通过浅层的卷积层获得的低级特征,后者包含通过深层的卷积层获得的高级特征,因此两者的直接拼接很容易造成语义鸿沟问题[16]

    针对第1个问题,文献[17]首次在SVS任务中引入Muti-Res模块[16]。该模块是Resnet[15]中残差单元的扩展,由3个滤波器尺寸逐渐增大的连续卷积层和一个残差连接组成。但是不同类型的残差单元是否会对基于Wave-U-Net的SVS模型的性能产生不同的影响目前仍不得而知。为此本文研究了3种不同的残差单元对模型性能的影响,并最终选择一种最合适的残差单元用于SVS任务中。

    针对第2个问题,本文提出在Wave-U-Net跳跃连接部分设计并引入注意力门控机制。

    在MUSDB18数据集上的实验结果表明,本文提出的RA-WaveUNet模型在分离性能上优于传统的Wave-U-Net模型;采用残差单元和注意力门控机制有助于提高模型的性能。

    • RA-WaveUNet模型框图如图1所示。与Wave-U-Net相比,其不同之处在于:首先,编码和解码块中的普通神经单元被替换为专门设计的残差单元(记为R);其次,在跳跃连接中添加注意力门控结构(记为A)。模型的具体结构细节如表1所示,其中E-Residual单元和D-Residual单元分别表示编码和解码块中的残差单元。

      图  1  RA-WaveUNet模型框图

      Figure 1.  Block diagram of RA-WaveUNet model

      BlockOperationOutput Shape
      Input$16384 \times 2$
      Encoding block $i$E-Residual unit $i$
      $i = 1,...,10$Decimation$16 \times 240$
      Bridge blockResidual unit 11$16 \times 264$
      Decoding block $i$Linear interpolation$32 \times 264$
      Concat(Att(E-Residual unit $i$))$32 \times 504$
      $i = 10,...,1$D-Residual unit $i$
      Output$16384 \times 2$

      表 1  RA-WaveUNet模型结构细节

      Table 1.  Architecture details of RA-WaveUNet model

    • 传统的Wave-U-Net结构中,输入的混合音频首先经过12层连续地下采样一维卷积层,每层的时间分辨率减少为前一层的一半,然后最终编码的低分辨率特征表示再经过12层连续地上采样一维卷积层输入尺寸相同的输出。同时,为了保持时间的连续性并避免产生高频噪声,在每个上采样层中进行线性插值。

    • 基于时域分析的源分离方法的性能很大程度上取决于特征提取的性能。为了在不引发梯度消失的前提下通过加深网络提取更高层次语义特征,本文在Wave-U-Net模型的编码和解码块中都引入了残差单元,即在整个网络中除主干路之外的每一对具有相同尺寸特征图的相邻卷积层之间搭建了支路。对比于跳跃连接中的拼接层,编码和解码模块中采用融合层,将上一层卷积与下一层卷积得到的特征图进行特征维度的融合,融合完成后再回到主干路。引入残差单元后网络的整体结构变得更密集,增强了层与层之间特征信息传递,最大程度提高了网络层中特征信息的利用率。

      图2示出了普通神经单位与3种不同残差单元的对比结果。传统的Wave-U-Net结构中采用的普通神经单元如图2(a)中的红框所示。第$i$层普通神经单元的输入${x^i}$和输出${x^{(i + 1)}}$之间的关系如下:

      图  2  普通神经单位与3种不同残差单元的对比

      Figure 2.  Comparison between the plain neural unit and three different kinds of residual units

      其中:$f({x^i};{\varphi ^i})$表示普通神经单元之间的映射关系;${\varphi ^i}$为可训练的参数。

      文献[15]中提出的常规残差单元包含卷积层、ReLU激活层、批归一化(BN)层和映射连接。映射连接可以分为恒等映射连接和卷积映射连接,前者卷积层为输入和输出设置相同的特征维度用实线表示,后者设置卷积滤波器的尺寸为1以调节输出的尺寸,用虚线表示[15]。如图2(b)图2(c)中红框所示,Residual unit 1和Residual unit 2分别表示选择维度匹配和维度不匹配的映射连接的情况。模型设计过程中为了方便对比,引入了Residual unit 1和Residual unit 2的Wave-U-Net的模型效果,如图2(b)图2(c)中蓝框所示对应,两者处理输入数据的R0部分相同。图2所示的Residual unit 1和Residual unit 2的输入${x^i}$和输出${x^{(i + 1)}}$间的关系分别如式(2)和式(3)所示:

      其中:$f({x^i};{\varphi ^i})$表示残差单元之间的映射关系;${\varphi ^i}$为可训练的参数。相加是对应通道间两个特征图逐个元素相加,因此如果${x^i}$${x^{i + 1}}$维度不同,需要给${x^i}$进行一个线性映射$\omega $来匹配维度。

      卷积神经网络通过逐层抽象的方式来提取目标特征,在这过程中如果感受野设置太小,只能观察到局部的特征,设置太大,则会获取过多的无效信息。Residual unit 2中采用卷积核尺寸为1的卷积映射连接,它只能解决尺寸匹配问题。在不违反Resnet核心思想的前提下,为了进一步探索更好的特征提取能力,本文提出了图2(d)所示的Residual unit 3,并应用在RA-WaveUNet模型中。Residual unit 3的架构类似于Residual unit 2,两者的区别在于卷积映射连接中采用的卷积核尺寸不同。RA-WaveUNet的编码和解码块中的Residual unit 3分别采用滤波器大小为15和5的卷积捷径连接,与残差学习部分中卷积层采用的滤波器大小保持一致。

      为了使残差单元更适合SVS任务,本文提出的3种残差单元均去除了Resnet的常规残差单元中的BN层。去除原因是:一方面,在端到端的SVS模型中,为了加速训练,音频输入和小批量 (Mini-batch)数据的大小通常被设置得很小。例如传统的Wave-U-Net中分别设置为0.74 s和16。我们知道乐音随时间变化非常快,因此每个音频片段之间的内部关联性是不稳定的,这样不同批次之间的均值和方差差异很大。另一方面,训练与预测阶段BN层的计算并不完全相同,训练阶段BN层会计算每个小批量的均值和方差,而在测试阶段采用的则是移动平均估计下的全局均值和方差,这种不一致会造成密集样本值预测的精度损失。

    • 传统的Wave-U-Net结构为了获取编码块中提取的细节信息,将编码块的输出直接与用于音源合成的解码块相应层的前一层输出相拼接,然而,这种直接拼接并没有考虑两者之间的语义鸿沟。与文献[16]提出的在跳跃连接部分添加几个CNN层和非线性变换不同,本文引入注意力门控机制来缩小从编码块中提取的低级特征和解码块中高级语义特征之间的语义差距。

      注意力机制是一种区域权重学习问题,已经在图像语义分割领域取得了很好的效果[18]。可训练的注意力模型可以分为硬注意力模型和软注意力模型。在硬注意力模型中,每个区域的注意力权重被设为0或1,模型的训练通常依赖于参数更新的强化学习,导致模型训练的难度很大。在软注意力模型中,每个区域的注意力权重可以是0到1之间的任何值,在训练阶段通常采用标准的反向传播,并且可以在无需蒙特卡洛采样 (Monte Carlo Sampling)的情况下训练模型。此外为了消除训练过程中模型对外部门控信息的依赖,文献[19]提出了一种基于特征图和分配权重的自我学习的注意力机制。本文提出的注意力门控机制属于自我学习的软注意力门控机制。

      图3示出了注意力门控结构。在每一个注意力门控结构中,从解码器的前一层提取的特征被用作门控信号$G$,用来调整并行的E-Residualunit的输出${x^i}$的权重。最后,将经过权重调整后的${x^i}$$G$进行拼接。第$i$层的注意力系数表示为${\alpha ^i}$,第$i$层第$l$个音频采样点的单个标量注意力系数表示为$\alpha _l^i$$\alpha _l^i \in [0,1]$,注意力门控函数如式(4)所示:

      图  3  注意力门控结构

      Figure 3.  Architecture of attention gate

      其中,${f_{\rm{att}}}$通过一组参数${\theta _{\rm{att}}}$定义${x^i}$$G$的运算。运算包含使用通道方向$1 \times 1$卷积的线性变换和使用Relu激活函数和Sigmoid激活函数的非线性变换。可以看出,注意力门控结构不会改变输入${x^i}$的尺寸,因此可以灵活地将其用于各种标准U-Net结构中。

    • 实验采用公开数据集MUSDB18[20]作为实验对象。该数据集包含150首不同类型的音乐曲目,总时长590 min,分别由训练集(100首音频)和测试集(50首音频)组成。每个样本由4种音源组成:人声、贝斯、鼓声和其他。所有音频均为立体声信号,并以44.1 kHz编码。为了对本文提出的模型和基线模型[12]进行性能对比,实验中将MUSDB18数据集分为3个子集:训练集(75首音频)、验证集(25首音频)和测试集(50首音频)。此外,实验还采用了CCMixter数据集[21]扩充训练集,该数据集包含50首不同类型的全长音乐曲目,总时长192.5 min。每个样本由2种音源组成:人声和背景音乐声。所有音频都被下采样到22050 Hz,并保留立体声。

      音源分离评价指标(BSSEval)[22]中的SDR (Source to Distortion Ratio)是源分离性能评估的常用指标。实验中计算比较了整个数据集上每首歌单个源的SDR中位值(Med.)、均值(Mean)、中值绝对差(MAD)和标准差(SD)。对于中位值和均值,数值越大则表示源分离性能越好。

    • 在训练阶段,每首歌2~3 min的音频被随机分为包含16384个样本点的音频片段用作模型的输入,实验使用随机值初始化模型参数,然后基于Adam优化算法[23]通过反向传播进行训练。批数据大小设置为16,学习率从0.0001开始,如果20次迭代后的验证准确性没有改善,则降低至0.00001,这种提前终止训练的方式将有效防止过拟合问题。训练过程通过最小化估计源的波形和相应的样本源之间的均方误差 (Mean Square Error, MSE)实现。

    • 为了研究不同残差单元对基于Wave-U-Net的SVS模型的适用性,并验证Residual unit 3在SVS任务中的优势,表2示出了传统Wave-U-Net[12](M4)、Wave-U-Net结合Residual unit 1 (M4-R1)、Wave-U-Net结合Residual unit 2 (M4-R2)、Wave-U-Net结合Residual unit 3 (M4-R3)的性能。结果显示,对于人声估计,M4-R3模型获得了最高的中位值(5.04 dB)和最高的均值(1.43 dB)。

      SchemesVocalsAccompaniment
      Med./
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      Med. /
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      M44.463.210.6513.6710.693.1511.857.03
      M4-R14.633.301.1313.1110.733.1012.217.09
      M4-R24.493.150.3414.0510.473.0111.726.77
      M4-R35.043.341.4313.2710.933.0912.406.90

      表 2  引入不同类型残差单元后Wave-U-Net的性能对比

      Table 2.  Performance comparison of Wave-U-Net with different types of residual units

    • 为了验证去除常规残留单元中BN层对于SVS任务的必要性,实验对比了在Wave-U-Net中有和没有BN层的残差单元的性能,结果如表3所示。实验结果表明去除常规残差单元中的BN层明显有助于提高源分离性能。

      SchemesVocalsAccompaniment
      Med. /
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      Med. /
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      M44.463.210.6513.6710.693.1511.857.03
      M4-R14.633.301.1313.1110.733.1012.217.09
      M4-R1+BN4.503.22014.8410.562.9811.467.16
      M4-R24.493.150.3414.0510.473.0111.726.77
      M4-R2+BN4.383.23−0.5415.5710.382.9311.186.53
      M4-R35.043.341.4313.2710.933.0912.406.90
      M4-R3+BN4.793.310.2814.8410.853.0711.816.64

      表 3  BN层对源分离性能的影响

      Table 3.  Influence of BN layer on the separation performance.

    • M4-R3在编码和解码块中均包含12层,可实现最佳性能,但是之前的实验发现M4-R3模型的训练参数规模大,训练耗时长,因此实验测试并比较了包含8、10、12层的M4-R3模型的分离性能,分别表示为M4-R3-8、M4-R3-10、M4-R3-12,希望在M4-R3的模型复杂度和性能之间进行权衡。由图4可以看出,M4-R3-12模型的训练参数数量分别约是M4-R3-10模型和M4-R3-8模型的两倍和三倍。图5示出了不同层数M4-R3模型的性能对比结果。可以看出,对于M4-R3模型,更多的层数对应于更好的性能;3种M4-R3模型均优于M4,证明了在传统的Wave-U-Net的编码和解码块中引入Residual unit 3有助于提高源分离性能;M4-R3-8模型在均值SDR方面其人声分离性能远低于M4-R3-12模型。然而,M4-R3-10模型的性能与M4-R3-12模型相当,但是训练参数数量要少得多。因此,本文认为M4-R3-10模型可以在模型复杂度和性能之间达到较好的平衡。

      图  4  不同层数M4-R3模型的训练参数数量对比

      Figure 4.  Parameter numbers comparison of M4-R3 models with different numbers of layers

      图  5  不同层数M4-R3模型的性能对比

      Figure 5.  Performances achieved by M4-R3 models with different numbers of layers

    • 为了验证注意力门控机制的引入对性能增强的贡献,比较了M4、结合注意力门控机制的M4(表示为M4-A)、M4-R3-10、结合了Residual unit 3和注意力门控机制的RA-WaveUNet 4种模型的性能,结果见表4,其中对应于同一列中的最佳性能值以粗体显示。

      SchemesVocalsAccompaniment
      Med. /
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      Med. /
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      M44.463.210.65 13.6710.693.1511.857.03
      M4-A4.523.270.9113.2910.723.0912.036.98
      M4-R3-104.893.331.2813.2710.933.0912.286.84
      RA-WaveUnet4.993.281.5413.0910.973.0912.386.96

      表 4  注意力门控机制对性能的影响

      Table 4.  Contribution of the attention gate to the performance

      实验结果表明:RA-WaveUNet性能优于M4-R3-10,验证了注意力门控机制的引入进一步提高了分离性能;RA-WaveUNet的性能优于M4-A和M4-R3-10,验证了以上两种改进之间存在互补性;M4-A和M4-R3-10的性能均优于M4,验证了以上两种改进均有助于增强Wave-U-Net的分离性能。

    • 在MUSDB18数据集的测试集上将RA-WaveUNet模型与其他4种最新的端到端SVS模型[12-14, 17]进行对比,结果如表5所示。可以看出,RA-WaveUNet模型在人声估计方面的分离性能略差于HydraNet+H7模型,但是在背景音乐估计方面明显优于该模型,并且所有分离性能指标均优于Wave-U-Net模型、MHE0模型以及U310模型。实验结果表明RA-WaveUNet模型取得了与最新的端到端SVS模型相当或更好的分离性能。

      SchemesVocalsAccompaniment
      Med. /
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      Med. /
      dB
      MAD/
      dB
      Mean/
      dB
      SD/
      dB
      M44.463.210.6513.6710.693.1511.857.03
      MHE0[13]4.693.240.7513.9110.883.1312.106.77
      HydraNet+ H7[14]1.664.7510.712.90
      U310[17]4.843.331.0913.5710.913.1412.266.84
      RA-WaveUnet4.993.281.5413.0910.973.0912.386.96

      表 5  与最新SVS模型的性能对比

      Table 5.  Performance comparison with state-of-the-arts SVS models

    • 本文对传统的基于Wave-U-Net的SVS模型进行了改进以提高其源分离的准确性。在特征提取和合成阶段,在Wave-U-Net的编码和解码模块中设计并引入了残差单元去解决梯度消失问题。这样可以构建更深的体系结构以提取更深层语义特征;在Wave-U-Net的跳跃连接中设计并引入了注意力门控机制,利用从解码块提取的特征来调整从编码块转换的特征的权重,以减少它们之间存在的语义鸿沟。在MUSDB18数据集上的实验结果表明,RA-WaveUNet模型优于传统的Wave-U-Net模型和大部分最新的端到端SVS模型,同时,以上改进均对模型性能的提高有帮助。未来我们将引入GAN进行数据增强去解决SVS领域由于训练样本少所引发的泛化能力差的问题。

(5)  表(5) 参考文献 (23)

目录

    /

    返回文章