高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于对抗网络的声纹识别域迁移算法

    作者简介: 季敏飞(1994-),男,上海人,硕士生,主要研究方向为音频信号处理。E-mail:Y45180166@mail.ecust.edu.cn;
    通讯作者: 陈宁, chenning_750210@163.com
  • 中图分类号: TP391

GAN-based Domain Adaptation Algorithm for Speaker Verification

    Corresponding author: CHEN Ning, chenning_750210@163.com
  • CLC number: TP391

  • 摘要: 针对声纹识别任务中,常常出现的由于真实场景语音与模型训练语料在内部特征(情感、语言、说话风格、年龄)或外部特征(背景噪声、传输信号、麦克风、室内混响)等方面的差异所导致的模型识别率低的问题,提出了一种基于对抗网络的声纹识别域迁移算法。首先,利用源域语音对X-Vector的声纹识别模型进行训练;然后,采用域迁移方法将源域训练的X-Vector模型迁移至目标域训练数据;最后,在目标域测试数据上检测迁移后的模型性能,并将其与迁移前的模型性能进行对比。实验中采用AISHELL1作为源域,采用VoxCeleb1和CN-Celeb分别作为目标域对算法性能进行测试。实验结果表明,采用本文方法进行迁移后,在VoxCeleb1和CN-Celeb的目标域测试集上的等错误率分别下降了21.46%和19.24%。
  • 图 1  X-Vector模型框图

    Figure 1.  Block diagram of X-Vector

    图 2  模型框图

    Figure 2.  Block diagram of model

    图 3  域迁移前后DET曲线对比

    Figure 3.  DET Curves comparison before and after domain adaptation

    表 1  X-Vector网络结构

    Table 1.  Network structure of the X-Vector model

    LayerContextDim
    TDNN-ReLUt-2, t+2512
    TDNN-ReLUt-2, t, t+2512
    TDNN-ReLUt-3, t, t+3512
    TDNN-ReLUt512
    TDNN-ReLUt1 500
    Pooling(mean+stddev)Full-seq3 000
    Dense-ReLU-512
    Dense-ReLU-512
    Dense-Softmax-Speakers
    下载: 导出CSV

    表 2  鉴别器网络结构

    Table 2.  Network structure of the discriminator

    LayerInput dimOutput dim
    Dense1-ReLU512512
    Dense2-ReLU512512
    Dense3-ReLU25664
    Softmax642
    下载: 导出CSV

    表 3  迁移前后性能对比

    Table 3.  Performance comparison before and after domain adaptation

    SchemesEER/%
    VoxCeleb1CN-Celeb
    PLDABefore adaptation30.5735.07
    After adaptation9.1115.83
    CDSBefore adaptation32.6943.58
    After adaptation15.4120.36
    下载: 导出CSV

    表 4  本文算法与DANN算法对比

    Table 4.  Performance comparison between ours and DANN

    VoxCeleb1CN-Celeb
    EER (%)DCFEER (%)DCF
    DANN (after adaptation)12.970.536 3×10−216.50.696 2×10−2
    This paper (after adaptation)9.110.347 8×10−215.830.674 4×10−2
    下载: 导出CSV
  • [1] MISRA A, HANSEN J H L. Modelling and compensation for language mismatch in speaker verification[J]. Speech Communication, 2018, 96: 58-66. doi: 10.1016/j.specom.2017.09.004
    [2] DEHAK N, KENNY P J, DEHAK R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 19(4): 788-798.
    [3] SHUM S H, REYNOLDS D A, GARCIA-ROMERO D, et al. Unsupervised clustering approaches for domain adaptation in speaker recognition systems[C]// Odyssey 2014. Joensuu Finland: ISCA, 2014: 265-272.
    [4] GARCIA-ROMERO D, MCCREE A, SHUM S, et al. Unsupervised domain adaptation for i-vector speaker recognition[C]// Odyssey 2014. Joensuu Finland: ISCA, 2014, 8: 260-264.
    [5] RAHMAN M H, KANAGASUNDARAM A, DEAN D, et al. Dataset-invariant covariance normalization for out-domain PLDA speaker verification[C]// Conference of the International Speech Communication Association (INTERSPEECH). Dresden, Germany: ISCA, 2015: 1017-1021.
    [6] ALAM M J, BHATTACHARYA G, KENNY P. Speaker verification in mismatched conditions with frustratingly easy domain adaptation[C]//Odyssey 2018. France: ISCA, 2018: 176-180.
    [7] SUN B, FENG J, SAENKO K. Return of frustratingly easy domain adaptation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. USA: AAAI, 2016: 2058-2065.
    [8] LEE K A, WANG Q, KOSHINAKA T. The CORAL+ algorithm for unsupervised domain adaptation of PLDA[C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, UK: IEEE, 2019: 5821-5825.
    [9] SNYDER D, GARCIA-ROMERO D, POVEY D, et al. Deep neural network embeddings for text-independent speaker verification[C]// Conference of the International Speech Communication Association (INTERSPEECH). Stockholm, Sweden: ISCA, 2017: 999-1003.
    [10] SNYDER D, GARCIA-ROMERO D, SELL G, et al. X-vectors: Robust dnn embeddings for speaker recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, Alberta: IEEE, 2018: 5329-5333.
    [11] NANDWANA M K, MCLAREN M, FERRER L, et al. Analysis and mitigation of vocal effort variations in speaker recognition[C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, UK: IEEE, 2019: 6001-6005.
    [12] ROHDIN J, STAFYLAKIS T, SILNOVA A, et al. Speaker verification using end-to-end adversarial language adaptation[C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, UK: IEEE, 2019: 6006-6010.
    [13] XIA W, HUANG J, HANSEN J H L. Cross-lingual text-independent speaker verification using unsupervised adversarial discriminative domain adaptation[C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, UK: IEEE, 2019: 5816-5820.
    [14] GHARIB S, DROSSOS K, CAKIR E, et al. Unsupervised adversarial domain adaptation for acoustic scene classification[C]//Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018). Surrey, UK: IEEE 2018: 138–142,.
    [15] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Montreal, Quebec, Canada: NIPS, 2014: 2672-2680.
    [16] SHRIVASTAVA A, PFISTER T, TUZEL O, et al. Learning from simulated and unsupervised images through adversarial training[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu, Hawaii: IEEE, 2017: 2107-2116.
    [17] BU H, DU J, NA X, et al. Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline[C]//2017 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA). Seoul: IEEE, 2017: 1-5.
    [18] NAGRANI A, CHUNG J S, ZISSERMAN A. Voxceleb: A large-scale speaker identification dataset[C]// Conference of the International Speech Communication Association (INTERSPEECH). Stockholm: ISCA, 2017: 2616-2620.
    [19] FAN Y, KANG J W, LI L T, et al. CN-CELEB: A challenging Chinese speaker recognition dataset[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona: IEEE, 2020: 7604-7608.
    [20] KINGMA D P, BA J. Adam: A method for stochastic optimization[C]//The 3rd International Conference for Learning Representations (ICLR). San Diego USA: IEEE, 2015: 1-15.
    [21] GANIN Y, USTINOVA E, AJAKAN H, et al. Domain-adversarial training of neural networks[J]. The Journal of Machine Learning Research, 2016, 17(1): 2096-2030.
  • 加载中
图(3)表(4)
计量
  • 文章访问数:  27
  • HTML全文浏览量:  20
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-12-09
  • 网络出版日期:  2021-04-07

基于对抗网络的声纹识别域迁移算法

    作者简介:季敏飞(1994-),男,上海人,硕士生,主要研究方向为音频信号处理。E-mail:Y45180166@mail.ecust.edu.cn
    通讯作者: 陈宁, chenning_750210@163.com
  • 华东理工大学信息科学与工程学院,上海 200237

摘要: 针对声纹识别任务中,常常出现的由于真实场景语音与模型训练语料在内部特征(情感、语言、说话风格、年龄)或外部特征(背景噪声、传输信号、麦克风、室内混响)等方面的差异所导致的模型识别率低的问题,提出了一种基于对抗网络的声纹识别域迁移算法。首先,利用源域语音对X-Vector的声纹识别模型进行训练;然后,采用域迁移方法将源域训练的X-Vector模型迁移至目标域训练数据;最后,在目标域测试数据上检测迁移后的模型性能,并将其与迁移前的模型性能进行对比。实验中采用AISHELL1作为源域,采用VoxCeleb1和CN-Celeb分别作为目标域对算法性能进行测试。实验结果表明,采用本文方法进行迁移后,在VoxCeleb1和CN-Celeb的目标域测试集上的等错误率分别下降了21.46%和19.24%。

English Abstract

  • 声纹识别作为身份验证的一种手段,已经广泛应用于实际生活中。但在大多数的实际应用场景中,由于实际应用数据与训练数据在内部特征(例如情感、语言[1]、说话风格、年龄等)或者外部特征 (例如背景噪声、传输信道、麦克风、室内混响等)上存在的差异,导致训练的模型在实际应用场景下的性能大幅下降。同时由于实际场景中数据相对匮乏,无法获得可用于模型训练的足够数据对模型进行重新训练,因此,如何对原有的模型进行域迁移使其在目标域上达到较好的效果成为一个重要的问题。

    为了解决以上问题,研究人员提出了许多适合声纹识别的域迁移方法。以在I-Vector[2]声纹识别模型上域迁移为例,文献[3]首先在I-Vector模型基础上探讨了域不匹配的问题,然后采用了一些聚类方法来解决该问题。文献[4]在文献[3]基础上提出了基于PLDA (Probabilistic Linear Discriminant Analysis)的I-Vector声纹识别模型域迁移框架,通过使用一个域外的PLDA判别模型去归类域内数据,再根据这些数据重新调整PLDA判别器的参数。文献[5]使用DICN技术将域内、域外数据重新映射到第3个空间,并通过使用一小部分域内数据提升PLDA判别器的效果。文献[6]提出了一个无监督的域迁移方法,通过调整域内、域外之间的协方差来解决域不适配的问题。文献[7]提出了基于 COR relation Alignment(CORAL)的域迁移方法,通过对齐两个域之间的二阶统计量来实现域迁移, 并且不需要任何标签。在此基础上,文献[8]将CORAL域迁移技术应用到基于I-Vector以及X-Vector[9-10]的声纹识别模型,得到CORAL+模型。

    最近,基于深度学习的域迁移算法成为新的研究热点。文献[11]运用mix-PLDA和TBC-PLDA来提升系统的鲁棒性。文献[12]提出了一个新的端到端域迁移方法,通过引入对抗损失来解决声纹识别中语言不匹配的问题。文献[13]同样借助对抗思想,通过DANN的方法来实现声纹识别的域迁移。

    在文献[14]中,研究人员首次引入生成对抗网络(Generative Adversarial Network, GAN)来解决声音场景分类 (Acoustic Scene Classification, ASC) 任务中域不匹配的问题,通过利用少量目标域数据来调整网络模型,提高模型在未知数据集上的分类准确率。本文对文献[14]提出的用于声音场景分类的域迁移算法进行了研究和改进,并将其应用到基于X-Vector的声纹识别模型的域迁移上。声纹识别任务与文献[14]中的声音场景分类任务存在较大的差异,主要表现为:(1)文献[14]中声音场景分类任务中源域和目标域的标签类别是保持不变的,而在声纹识别任务中,由于源域和目标域的说话人是不同的,因此分类的标签也发生了变化;(2)与声学场景分类任务相比,声纹识别任务中类的个数多了很多,这就加大了分类的难度;(3)文献[14]的实验中,源域数据和目标域数据的差异主要来自于录制设备、采样频率等,而在本文的实验中,源域数据和目标域数据存在说话人、语种、环境以及噪声等多方面的不同,差异更大。为了适应新的任务,本文对文献[14]提出的迁移模型进行了两方面改进:首先重新设计鉴别器网络结构以便适合声纹识别任务;其次在迁移后为了确保特征提取模型在说话人分类中的性能不下降,使用源域标注样本对特征提取模块进行调整。

    • X-Vector特征向量提取模型框图如图1所示。该模型以梅尔倒谱系数 (Mei-Frequency Cepstrum Coefficient, MFCC)为输入,由时延神经网络(Time Delay Neural Network, TDNN)、统计池化层和全连接层组成。其中TDNN主要用于提取语音所包含的时序特性;统计池化层的作用是将整个时序特征进行聚合。该模型训练完成后,取第一个全连接层的输出作为X-Vector特征向量。

      图  1  X-Vector模型框图

      Figure 1.  Block diagram of X-Vector

    • 本文提出的基于对抗网络的声纹识别域迁移算法(GAN-based Domain Adaptation Algorithm for Speaker Verification, GAN-DASV) 框图如图2所示。涉及的数据集包含了源域数据集${{\mathit{\boldsymbol{A}}}^{({\rm{S}})}} = \left\{ {{{\mathit{\boldsymbol{a}}}_n}^{({\rm{S}})}\left| {n = 1, \ldots ,{N^{({\rm{S}})}}} \right.} \right\}$、目标域训练数据集${{\mathit{\boldsymbol{A}}}^{({{\rm{T}}_1})}} = \left\{ {{{\mathit{\boldsymbol{a}}}_n}^{({{\rm{T}}_1})}\left| {n = 1, \ldots ,{N^{({{\rm{T}}_1})}}} \right.} \right\}$、目标域测试数据集${{\mathit{\boldsymbol{A}}}^{({{\rm{T}}_2})}} = \left\{ {{{\mathit{\boldsymbol{a}}}_n}^{({{\rm{T}}_2})}\left| {n = 1, \ldots ,{N^{({{\rm{T}}_2})}}} \right.} \right\}$

      图  2  模型框图

      Figure 2.  Block diagram of model

      将已经在源域${{\mathit{\boldsymbol{A}}}^{({\rm{S}})}}$上训练好的特征提取模型${E^{({\rm{S}})}}$对目标域训练数据${{\mathit{\boldsymbol{A}}}^{\left( {{{\rm{T}}_1}} \right)}}$进行迁移学习,从而获取更适合目标域的特征提取模型${E^{({\rm{T}})}}$。迁移后的模型性能将在目标域测试集${{\mathit{\boldsymbol{A}}}^{\left( {{{\rm{T}}_2}} \right)}}$上进行测试。算法主要分为三个步骤,其中域迁移过程不需要目标域训练集标签。

    • 在整个模型中,采用X-Vector模型提取说话人的声纹特征。如图2(a)所示,首先利用源域数据集${{\mathit{\boldsymbol{A}}}^{({\rm{S}})}}$和相应的标签${{\mathit{\boldsymbol{Y}}}^{({\rm{S}})}} = $$ \left\{ {{{\mathit{\boldsymbol{y}}}_n}^{({\rm{S}})}\left| {n = 1, \ldots ,{N^{({\rm{S}})}} = \left| {{{\mathit{\boldsymbol{y}}}_s}^{({\rm{S}})}} \right|} \right.} \right\}$训练${E^{({\rm{S}})}}$模型。训练采用式(1)所示的损失函数,

      其中,$C$为说话人分类器。

    • 图2(b)所示,在源域到目标域的迁移阶段,将在源域${{\mathit{\boldsymbol{A}}}^{({\rm{S}})}}$上训练好的模型${E^{({\rm{S}})}}$迁移至目标域数据集${{\mathit{\boldsymbol{A}}}^{({\rm{T}})}}$

      首先,采用${E^{({\rm{S}})}}$的参数对目标域特征提取模型${E^{({\rm{T}})}}$进行初始化,并采用随机初始化的方法对鉴别器$D$进行初始化。然后,采用生成对抗网络[15]的训练思想,将${E^{({\rm{T}})}}$$D$分别看成是生成对抗网络中的生成器和鉴别器,并对它们进行交替训练,使${E^{({\rm{T}})}}\left( {{{\mathit{\boldsymbol{A}}}^{({{\rm{T}}_1})}}} \right)$${E^{({\rm{S}})}}\left( {{{\mathit{\boldsymbol{A}}}^{({\rm{S}})}}} \right)$的数据分布尽可能相似。其中鉴别器$D$用于区分输入的${E^{({\rm{S}})}}\left( {{{\mathit{\boldsymbol{A}}}^{({\rm{S}})}}} \right)$${E^{({\rm{T}})}}\left( {{{\mathit{\boldsymbol{A}}}^{({{\rm{T}}_1})}}} \right)$来自于源域还是目标域。而目标域特征提取模型${E^{({\rm{T}})}}$则用于混淆鉴别器的判断,使其无法分辨${E^{({\rm{T}})}}\left( {{{\mathit{\boldsymbol{A}}}^{({{\rm{T}}_1})}}} \right)$究竟来自于源域还是目标域。在此过程中用于训练的$D$${E^{({\rm{T}})}}$的损失函数$L\left( D \right)$$L\left( {{E^{({\rm{T}})}}} \right)$分别如式(2)和式(3)所示。

      在每次$D$${E^{({\rm{T}})}}$交替训练的过程中,为了保证不降低${E^{({\rm{T}})}}$提取说话人特征的能力,将源域数据${{\mathit{\boldsymbol{A}}}^{({\rm{S}})}}$输入新的${E^{({\rm{T}})}}$$C$,进行说话人类别分类的训练,这也是本文对文献[14]的一种改进。除此之外,为了减少模型训练过程中的震荡,参照文献[16]的方法,将鉴别器的输入进行调整,将历史数据与最新数据进行混合作为其输入。

    • 图2(c)中所示,在测试阶段,采用迁移学习获得的X-Vector模型${E^{({\rm{T}})}}$提取目标域测试集${{\mathit{\boldsymbol{A}}}^{({{\rm{T}}_2})}}$中样本的特征,并采用基于PLDA或余弦评分(Cosine Distance Scoring, CDS) 算法对其进行打分。

    • 实验阶段的主要任务是验证本文提出的模型从源域到目标域上迁移的可行性。为了模拟实际场景中目标域数据集不足的情况,实验中选取的目标域数据集的大小将远远小于源域数据的大小。同时,实验中X-Vector通过PyTorch来实现,而PLDA鉴别器则采用了Kaldi上提供的程序。

    • 实验采用AISHELL1[17]为源域数据集,VoxCeleb1[18]和CN-Celeb[19]为目标域数据集。

      AISHELL1是希尔贝壳公司提供的开源中文普通话语音数据集,它包含了178h的录音,由400个说话人构成。在实验中,为了更好地显示本文算法的迁移效果,只采用了源数据集一半的样本,由随机挑选的来自于340个说话人的50 000条语音片段组成。

      VoxCeleb1数据集包含了取自YouTube的1 251个说话人超过100 000条语音片段。实验随机选取了VoxCeleb1训练集中的3 400个语音片段构成目标域训练集,将VoxCeleb1的测试集作为目标域测试集。

      CN-Celeb是由清华大学提供的开源的中文普通话语音数据库。它包含1 000位中国名人的130 000条语音片段,11种语音题材,共计274h。同样从CN-Celeb提供的训练集上随机选取了2 500条数据作为目标域训练集,并将该数据集的测试集作为本实验的测试集。

      VoxCeleb1和CN-Celeb被选为目标域数据集的原因是它们与源域数据集存在如下差异:

      (1) VoxCeleb1与AISHELL1之间的语言是不同的,前者为英语,后者为普通话。

      (2) CN-Celeb与AISHELL1相比,CN-Celeb为非约束数据集,其包含如娱乐、访问、直播等场景,在声纹识别任务上更具挑战性。

      (3) 无论是VoxCeleb1还是CN-Celeb,其信噪比都小于AISHELL1。

    • 实验中,将输入的音频分为长度为25ms的语音帧,并提取每帧语音的23维梅尔倒谱系数作为X-Vector模型的输入。X-Vector和鉴别器的网络结构分别如表1表2所示。将X-Vector网络中第一个全连接层的输出作为鉴别器的输入,采用 Adam优化器[20],批次大小和学习率分别设置为128和0.001。将得到的模型在目标域测试数据集${{\mathit{\boldsymbol{A}}}^{({{\rm{T}}_{\rm{2}}})}}$上进行测试来验证它的性能。

      LayerContextDim
      TDNN-ReLUt-2, t+2512
      TDNN-ReLUt-2, t, t+2512
      TDNN-ReLUt-3, t, t+3512
      TDNN-ReLUt512
      TDNN-ReLUt1 500
      Pooling(mean+stddev)Full-seq3 000
      Dense-ReLU-512
      Dense-ReLU-512
      Dense-Softmax-Speakers

      表 1  X-Vector网络结构

      Table 1.  Network structure of the X-Vector model

      LayerInput dimOutput dim
      Dense1-ReLU512512
      Dense2-ReLU512512
      Dense3-ReLU25664
      Softmax642

      表 2  鉴别器网络结构

      Table 2.  Network structure of the discriminator

    • 分别采用基于PLDA和余弦评分(Cosine Distance Scoring, CDS)的打分方式对输出的X-Vector特征向量进行打分。其中,基于PLDA的打分方式具有很好的信道补偿能力,而基于CDS的打分方式能更直观地观察到迁移对模型性能提升的效果。在迁移前后用于训练PLDA的数据分别为迁移前后目标域训练数据集上提取的X-Vector特征向量,实验结果如表3所示。可以看出,在目标域测试集上,无论选用PLDA还是CDS的打分方式,本文提出的域迁移算法均可有效降低声纹识别的等错误率(Equal Error Rate, EER)。以基于PLDA的打分方式为例,经过域迁移后,在VoxCeleb1和CN-Celeb目标域测试集上,EER分别下降了21.46%和19.24%。EER越小模型性能越好。

      SchemesEER/%
      VoxCeleb1CN-Celeb
      PLDABefore adaptation30.5735.07
      After adaptation9.1115.83
      CDSBefore adaptation32.6943.58
      After adaptation15.4120.36

      表 3  迁移前后性能对比

      Table 3.  Performance comparison before and after domain adaptation

    • 为了验证本文方法的优越性,将本文方法与基于DANN[21]的迁移方法进行对比,分别采用EER、最小检测代价(Minimum Detection Cost Function, DCF)、拒识率曲线(Detection Error Tradeoff, DET)作为衡量指标。其中DET曲线越靠近左下角,表明性能越好。表4图3所示的实验结果表明,在两个目标域测试集上,本文方法的3种衡量指标均优于基于DANN的域迁移算法。

      VoxCeleb1CN-Celeb
      EER (%)DCFEER (%)DCF
      DANN (after adaptation)12.970.536 3×10−216.50.696 2×10−2
      This paper (after adaptation)9.110.347 8×10−215.830.674 4×10−2

      表 4  本文算法与DANN算法对比

      Table 4.  Performance comparison between ours and DANN

      图  3  域迁移前后DET曲线对比

      Figure 3.  DET Curves comparison before and after domain adaptation

    • 本文提出了一种面向声纹识别域迁移的模型。该模型可利用少量的无标签目标域样本实现域迁移学习。与迁移前相比,可在VoxCeleb1和CN-Celeb数据集上实现21.46%和19.24%的EER的提升。

      将来,我们还会尝试引入新的生成对抗网络,如CycleGan,进行相关研究,以进一步提升模型的性能。

(3)  表(4) 参考文献 (21)

目录

    /

    返回文章