高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于音频内容和歌词文本相似度融合的翻唱歌曲识别模型

    作者简介: 陈颖呈(1994-),女,河南人,硕士生,主要研究方向为自然语言处理和音频信号处理。E-mail:1450746798@qq.com;
    通讯作者: 陈宁, chenning_750210@163.com
  • 中图分类号: TP391

Cover Song Identification Model Based on the Similarity Fusion of Audio Content and Lyrics Text

    Corresponding author: Ning CHEN, chenning_750210@163.com
  • CLC number: TP391

  • 摘要: 翻唱歌曲识别是音乐信息检索(Music Information Retrieval, MIR)领域最具挑战的任务之一。为了提高翻唱歌曲识别(Cover Song Identification, CSI)的准确率,研究者提出了多音频特征相似度张量积图融合的翻唱识别算法,但是相似度高维空间几何结构的学习大幅度增加了模型的时间复杂度,同时该模型没有考虑歌词对翻唱识别的重要性。本文提出了基于音频内容和歌词文本相似度融合的翻唱识别模型。采用深度学习的方法分别提取音频特征和歌词特征,并采用相似度网络融合模型对以上两种特征的相似度进行融合。为了验证算法的有效性,构建了Covers2326多模态数据库。实验结果表明,本文算法取得了比基于多音频特征相似度张量积图融合算法更高的识别准确率和更低的时间复杂度。
  • 图 1  CSI模型框图

    Figure 1.  Block diagram of CSI model

    图 2  InferSent句子编码模型

    Figure 2.  InferSent sentence encoding model

    图 3  CSNF-TPGs与本文模型的性能比较

    Figure 3.  Performance comparison between CSNF-TPGs and the proposed model

    表 1  3组翻唱歌曲的信息

    Table 1.  Tracks' information of three cover sets

    Cover set Title of the tracks Track ID Artists
    1 Set A drift On Memory Bliss 1 Dawn PM
    2 Backstreet Boys
    2 Come On Let's Go 1 The McCoys
    2 Los Lobos
    3 Ritchie Valens
    3 Black Star 1 Christopher O'Riley
    2 Radiohead
    3 Gillian Welch
    下载: 导出CSV

    表 2  基于单模态的翻唱歌曲识别算法性能比较

    Table 2.  CSI performance comparison of algorithms based on single modal

    AlgorithmTOP-10MAPMaRRMR
    CPCP1 5860.121 40.061 31 533.700 0
    MLD2 9170.197 20.097 81 114.300 0
    BSC3 1360.094 40.063 4833.554 3
    DPCP6 1010.437 90.206 9555.083 1
    InferSent11 9370.809 20.359 1200.369 2
    TF·IDF12 8980.875 30.390 5138.653 7
    下载: 导出CSV

    表 3  基于多模态的翻唱歌曲识别算法性能比较

    Table 3.  CSI performance comparison of algorithms based on multi-modal

    AlgorithmTOP-10MAPMaRRMR
    CSNF-TPGs7 6040.519 50.237 4719.386 0
    InferSent*TF·IDF12 9410.880 30.387 1128.577 1
    CPCP_Qmax+InferSent12 3050.845 00.366 2160.027 3
    CPCP_Qmax+ TF·IDF12 9020.889 00.383 5110.370 8
    MLD_Dmax+ InferSent12 7290.866 40.373 7123.178 5
    MLD_Dmax+ TF·IDF13 2270.903 40.388 582.019 5
    BSC_CC+InferSent12 5240.861 70.373 7149.545 8
    BSC_CC+ TF·IDF13 0430.895 50.387 0103.196 9
    DPCP_Qmax+InferSent13 1460.892 20.384 868.280 8
    DPCP_Qmax+ TF·IDF13 5160.924 40.397 047.826 4
    CPCP_Qmax +InferSent*TF·IDF12 9830.894 30.385 699.379 9
    MLD_Dmax+InferSent*TF·IDF13 2870.907 80.390 176.873 4
    BSC_CC +InferSent*TF·IDF13 1100.901 90.389 497.455 5
    DPCP_Qmax+InferSent*TF·IDF13 5830.927 90.398 344.389 5
    下载: 导出CSV

    表 4  模型时间复杂度比较

    Table 4.  Comparison of time complexity between two models

    AlgorithmTime/s
    CSNF-TPGs15 220.27
    DPCP_Qmax+InferSent*TF·IDF134.01
    下载: 导出CSV
  • [1] FUJISHIMA T. Real-time chord recognition of musical sound: A system using common lisp music[C]// The international Computer Music conference. Beijing: International Computer Music Association, 1999: 2-5.
    [2] CHEN N, DOWNIE J S, XIAO H, et al. Cochlear pitch class profile for cover song identification[J]. Applied Acoustics, 2015, 99: 92-96. doi: 10.1016/j.apacoust.2015.06.003
    [3] CHEN N, XIAO H. Similarity fusion scheme for cover song identification[J]. Electronics Let-ters, 2016, 52(13): 1173-1175. doi: 10.1049/el.2015.4013
    [4] SALAMON J, GÓmez E. Melody extraction from polyphonic music signals using pitch contour characteristics[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(6): 1759-1770. doi: 10.1109/TASL.2012.2188515
    [5] SERRA J, SERRA X, ANDRZEJAK R G. Cross recur-rence quantification for cover song identifica-tion[J]. New Journal of Physics, 2009, 11(9): 093017. doi: 10.1088/1367-2630/11/9/093017
    [6] 杨帆, 陈宁. 基于交叉递归图和局部匹配的翻唱歌曲识别[J]. 华东理工大学学报(自然科学版), 2016, 42(2): 247-253.
    [7] ELLIS D P W. Beat tracking by dynamic pro-gramming[J]. Journal of New Music Research, 2007, 36(1): 51-60. doi: 10.1080/09298210701653344
    [8] FOUCARD R, DURRIEU J L, LAGRANGE M, et al. Multimodal similarity between musical streams for cover version detection[C]//2010 IEEE International Conference on Acoustics, Speech and Signal Processing. USA: IEEE, 2010: 5514-5517.
    [9] RAVURI S, ELLIS D P W. Cover song detection: From high scores to general classifica-tion[C]//2010 IEEE International Conference on Acoustics, Speech and Signal Processing. USA: IEEE, 2010: 65-68.
    [10] LI M, CHEN N. A robust cover song identifica-tion system with two-level similarity fusion and post-processing[J]. Applied Sciences, 2018, 8(8): 1383. doi: 10.3390/app8081383
    [11] WANG B, MEZLINI A M, DEMIR F, et al. Similarity network fusion for aggregating data types on a genomic scale[J]. Nature Methods, 2014, 11(3): 333-337. doi: 10.1038/nmeth.2810
    [12] FAN Y, CHEN N. Improved similarity fusion scheme for cover song identification[J]. Elec-tronics Letters, 2018, 54(24): 1403-1405. doi: 10.1049/el.2018.6461
    [13] CORREYA A A, HENNEQUIN R, ARCOS M. Large-scale cover song detection in digital music li-braries using metadata, lyrics and audio fea-tures[J]. arXiv preprint arXiv: 1808.10351, 2018. 注录格式不正确
    [14] 杨妹, 陈宁. 基于深度学习和手工设计特征融合的翻唱歌曲识别模型[J]. 华东理工大学学报(自然科学版), 2018, 44(05): 752-759.
    [15] LIU C, SHENG Y, WEI Z, et al. Research of text classification based on improved TF-IDF algo-rithm[C]// 2018 IEEE International Conference of Intelligent Robotic and Control Engineering (IRCE). USA: IEEE, 2018: 218-222.
    [16] 费加磊, 陈宁. 基于深度学习的艺术家特性表示[J]. 华东理工大学学报 (自然科学版), 2019, 45(1): 119-124.
    [17] Proceedings of the 2014 Conference on Empirical Methods in Natural Language Pro-cessing (EMNLP). Copenhagen, Denmark: ACL, 2017: 670-680.
    [18] PENNINGTON J, SOCHER R, MANNING C. Glove: Global vectors for word representation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: SIGDAT Publisher, 2014: 1532-1543.
    [19] CHEN N, LI W, XIAO H. Fusing similarity func-tions for cover song identification[J]. Multi-media Tools and Applications, 2018, 77(2): 2629-2652. doi: 10.1007/s11042-017-4456-9
  • [1] 李一斌张欢欢 . 基于双向GRU-CRF的中文包装产品实体识别. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180407001
    [2] 赵澜涛林家骏 . 基于双路CNN的多姿态人脸识别方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180326003
    [3] 颜建军刘章鹏刘国萍郭睿王忆勤付晶晶钱鹏 . 基于深度森林算法的慢性胃炎中医证候分类. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180410001
    [4] 王德勋虞慧群范贵生 . 基于深度学习的面部动作单元识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190107003
    [5] 马振伟何高奇袁玉波 . 基于小样本深度学习的通风柜橱窗状态识别方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190412004
    [6] 张雪芹魏一凡 . 基于深度学习的驾驶场景关键目标检测与提取. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181023002
    [7] 刘佳丽叶炯耀 . 基于Ohta颜色空间的多信息融合火焰检测. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180910001
    [8] 康萌萌杨浩谷小婧顾幸生 . 基于融合路径监督的多波段图像语义分割. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20191216002
    [9] 钱文秀常青向辉康文斌 . 基于深度监督显著目标检测的草莓图像分割. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181205004
    [10] 杨祺刘士荣 . 多自主车辆队列跟随控制器设计. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190118001
    [11] 魏江平林家骏陈宁 . 多特征非接触式测谎技术. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190619002
    [12] 张习习顾幸生 . 基于集成学习概率神经网络的电机轴承故障诊断. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181206001
    [13] 陈剑挺叶贞成程辉 . 基于p阶Welsch损失的鲁棒极限学习机. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20181209001
    [14] 赖兆林冯翔虞慧群 . 基于逆向学习行为粒子群算法的云计算大规模任务调度. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190218001
    [15] 许毅冯翔虞慧群 . 基于强化学习和角度惩罚距离的冰晶连续优化算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20191125003
    [16] 金志超高大启朱昌明王喆 . 基于权重的多视角全局和局部结构风险最小化分类器. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180704001
    [17] 陈兰萍牛玉刚 . 基于多代理的微电网分区分布式最优潮流分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190523004
    [18] 柏德鸿宗原赵玲 . 扭曲片强化裂解炉管多尺度混合特性分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190315003
    [19] 邢改兰赖焕新刘华飞 . 刀片式多排密集圆孔气体冲击射流冷却的实验研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190916001
    [20] 席孝敏景希玮徐健公维光郑柏存 . CMC取代度对负极浆料流变性及分散稳定性的影响. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180718003
  • 加载中
图(3)表(4)
计量
  • 文章访问数:  78
  • HTML全文浏览量:  26
  • PDF下载量:  2
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-10-29
  • 网络出版日期:  2020-06-23

基于音频内容和歌词文本相似度融合的翻唱歌曲识别模型

    作者简介:陈颖呈(1994-),女,河南人,硕士生,主要研究方向为自然语言处理和音频信号处理。E-mail:1450746798@qq.com
    通讯作者: 陈宁, chenning_750210@163.com
  • 华东理工大学信息科学与工程学院,上海 200237

摘要: 翻唱歌曲识别是音乐信息检索(Music Information Retrieval, MIR)领域最具挑战的任务之一。为了提高翻唱歌曲识别(Cover Song Identification, CSI)的准确率,研究者提出了多音频特征相似度张量积图融合的翻唱识别算法,但是相似度高维空间几何结构的学习大幅度增加了模型的时间复杂度,同时该模型没有考虑歌词对翻唱识别的重要性。本文提出了基于音频内容和歌词文本相似度融合的翻唱识别模型。采用深度学习的方法分别提取音频特征和歌词特征,并采用相似度网络融合模型对以上两种特征的相似度进行融合。为了验证算法的有效性,构建了Covers2326多模态数据库。实验结果表明,本文算法取得了比基于多音频特征相似度张量积图融合算法更高的识别准确率和更低的时间复杂度。

English Abstract

  • 音乐流媒体技术的快速发展使得在线音乐数量呈指数增长,如何从海量数据集中检索目标歌曲的翻唱版本成为极具挑战的问题。由于翻唱歌曲与原版歌曲在音调、节奏、结构、旋律、和声、音色、语言上均有可能存在差异,因此面向翻唱歌曲检索的相似度计算模型研究是音乐信息检索领域的难点问题。

    考虑到翻唱版本之间基本保持不变的内容是和声演进和主旋律,目前用于翻唱检索的特征提取方法大致可分为两类:音级轮廓(Pitch Class Profile, PCP)特征和主旋律(Main Melody, MLD)特征。PCP特征对于音调及响度变化具有很好的鲁棒性[1],为了进一步提高特征的分辨率,文献[2]将人耳听觉感知特性引入传统的PCP模型,构造了耳蜗音级轮廓(Cochlear Pitch Class Profile, CPCP)特征。

    为了解决翻唱版本间可能存在节拍差异的问题,文献[3]将节拍提取与音级轮廓特征结合,构造了节拍同步音级轮廓(Beat-Synchronous Chroma, BSC)特征。

    主旋律是另一种常用于翻唱识别的特征[4],但是该方法在多音源情况下的准确度会受到影响。

    在相似度计算方面,主流方法包括Qmax[5]、Dmax[6]和CC[7]算法。考虑到不同的特征提取和相似度计算方法在表现音乐相似度方面有很强的互补性,为了提高翻唱歌曲识别(CSI)的准确率,近期有学者提出了多种相似度融合方法。文献[8]将音乐原声、主旋律及伴奏特征的相似度以直接连接的方法进行融合。文献[9]利用基于不同音频特征的相似度分数训练分类器,以判断参考歌曲与测试歌曲是否属于同一翻唱组合。文献[10]利用生物领域中的相似度网络融合(Similarity Network Fusion, SNF)[11]算法完成一级融合,然后采用混合马尔可夫模型对上述融合后的相似度进行二级融合。

    基于张量积图融合的音乐相似度模型(CSNF-TPGs)[12]首先采用SNF技术对3种不同特征的相似度进行两两融合,然后采用张量积图融合技术将多个融合后的相似度矩阵映射到高维空间完成二级融合。虽然基于张量积图融合的算法取得了很好的识别效果,但仍有可改进的方面:(1)采用手工特征很难表现音乐内容中蕴含的非线性深层语义特性,而且很难实现良好的泛化能力。(2)相似度高维空间几何结构的学习导致计算复杂度的增加,无法适应实际应用。(3)忽略了音乐歌词内容在表现音乐相似性方面的优势。

    为了充分利用音频内容和歌词在表现音乐相似性方面的互补性,文献[13]提出了基于多模态信息融合的翻唱检索模型。该模型通过融合歌曲元数据、歌词和音频三方面的信息,从而显著提高了CSI的准确性。本文受此启发,提出了一种改进的基于多模态相似度融合的CSI模型,对文献[12]模型进行了改进。首先,在音频特征提取阶段,为了提高特征在表现音乐非线性深层语义的特性,采用了基于深度学习的音级轮廓(Deep Pitch Class Profile, DPCP)特征[14];其次,由于不同的文本特征具有一定的互补性[15],因此,在歌词特征提取过程中,分别采用词频-逆向文件频率(Term Frequency-Inverse Document Frequency, TF·IDF)[16]及InferSent[17]技术,抓住重点词语频次特性和句子的双向语义依赖特性;最后,采用SNF算法对基于歌词和音频内容的相似度进行非线性融合以充分利用两种模态的信息。为了验证算法的有效性,构建了Covers2326多模态数据集。实验结果表明,与文献[12]算法相比,本文算法的识别准确率有了大幅度的提高。

    • 本文提出的基于多模态信息融合的CSI模型结构如图1所示,采用的翻唱示例样本信息见表1

      图  1  CSI模型框图

      Figure 1.  Block diagram of CSI model

      Cover set Title of the tracks Track ID Artists
      1 Set A drift On Memory Bliss 1 Dawn PM
      2 Backstreet Boys
      2 Come On Let's Go 1 The McCoys
      2 Los Lobos
      3 Ritchie Valens
      3 Black Star 1 Christopher O'Riley
      2 Radiohead
      3 Gillian Welch

      表 1  3组翻唱歌曲的信息

      Table 1.  Tracks' information of three cover sets

    • 为了确保音频特征提取的鲁棒性和泛化能力,采用文献[14]提出的基于深度学习的音级轮廓特征提取模型。该模型首先对输入的采样率为44 100 Hz的音频信号进行帧长为8 192、时移为4 410的分帧处理,然后,对每帧音频进行离散时间傅里叶变换(Discrete-Time Fourier Transform,STFT)处理,并求取对数能量谱。最后,将所得的对数能量谱作为深度神经网络(Deep Neural Network, DNN)的输入。

      DNN共包含3个隐含层,每个隐含层有512个节点并将Sigmoid激活函数作用到模型的输出层。网络训练时,采用二进制交叉熵作为损失函数计算网络的输出向量标签与实际标签的差值。损失函数的计算公式如下:

      其中:${t_i}$是目标chroma向量;${p_i}$是预测chroma向量。

      为了防止过拟合,每个隐含层后面增加了舍弃概率为0.5的dropout层。每迭代20次之后,若验证集的准确率没有增加,程序会自动停止训练。

    • 文献[13]指出由于翻唱歌曲的歌词内容在语义上有高度相似性,因此歌词语义分析的引入有助于提升翻唱歌曲检索的准确率。本文分别采用TF·IDF和InferSent技术对歌词进行分析,以描述歌词之间基于词频和基于句子双向语义依赖的相似性。

      TF·IDF由词频(TF)和逆向文件频率(IDF)的乘积组成,词频是指某一给定的词在某一文档中出现的频率,逆向文件频率是词在语料库中普遍性的度量。如果一个词或短语在一篇文章中频繁出现,而在其他文章中很少出现,则认为该词或短语具有良好的分类能力。TF和IDF的计算方法如式(2)和式(3)所示。

      其中:${n_{i,j}}$表示单词$t_i$在文档$d_j$中出现的次数;$\displaystyle\sum\limits_k {{n_{k,j}}}$表示文档$d_j$中所有单词出现次数的总和。

      其中:$\left| D \right|$表示语料库的总文件数;$\left| {\left\{ {j:{t_i} \in {d_j}} \right\}} \right|$表示包含词语$t_i$的文件数目。如果某个词不在该语料库中,那么式(3)会产生除零错误,因此,一般采用$1 + \left| {\left\{ {j:{t_i} \in {d_j}} \right\}} \right|$代替$\left| {\left\{ {j:{t_i} \in {d_j}} \right\}} \right|$

      从式(4)可以看出,某一文件中的高频词及该词在整个文件集合中的低文件频率可以产生较高的TF·IDF权重。

      InferSent句子编码具有以下优势:(1)能够抓住多个单词或者短语之间的内在关系;(2)对于不同长度的句子,句子嵌入维度是一致的(本文将其设置为2 048),因此有效地减少了计算复杂度且不会造成维度灾难。

      图2所示,InferSent句子编码模型首先对句子${{S}} = [{w_1},...,{w_N}]$进行预处理,其中N表示句子的单词个数,${w_i}$代表句子中的词语。本文采用已训练好的、且词嵌入维度为300的Glove向量[18]${{S}}$进行初始化,得到词嵌入序列${{G}} = [{v_1},...,{v_N}]$。然后将${{G}}$作为双向长短时记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)的输入进行模型的训练。在每个时间步长中,BiLSTM的隐含层状态是由前向隐含层${{{H}}_{\rm{f}}} = [{h_{f1}},...,{h_{fN}}]$和后向隐含层${{{H}}_{\rm{b}}} = [{h_{b1}},...,{h_{bN}}]$进行拼接得到。最后,为了得到固定长度的句子嵌入,将BiLSTM的输出通过一个最大池化层(Maxpooling Layer)。

      图  2  InferSent句子编码模型

      Figure 2.  InferSent sentence encoding model

      InferSent的具体训练方法如下:首先,将每对句子分别采用InferSent句子编码器进行编码,得到向量UV,并将$({{U}},{{V}},{{U}} \cdot {{V}},\left| {{{U}} - {{V}}} \right|)$作为损失函数,其中,${{U}} \cdot {{V}}$UV的乘积,$\left| {{{U}} - {{V}}} \right|$是向量UV差值的绝对值。然后,采用随机梯度下降法(Stochastic Gradient Descent,SGD)进行网络参数的迭代更新,训练时将学习率、权重衰减率及批处理大小分别设置为0.1、0.99和64。

    • 采用Qmax相似度算法计算基于DPCP特征的音频内容相似度矩阵,同时采用余弦距离(Cosine Distance, CD)分别计算基于InferSent及TF·IDF特征的歌词相似度。本文采用基于InferSent和基于TF·IDF特征的相似度的均值作为歌词相似度。

      Qmax相似度计算方法构建基于歌曲特征的音频信号交叉递归图(Cross Recurrence Plot, CRP),并通过局部相干递归分析来表示两首歌曲的相似程度。Qmax的具体实现过程如下:首先,对歌曲xy构建特征矩阵的CRP图,CRP图的每个元素${{{C}}_{x,y}}\left( {i,j} \right)$的计算方法如下:

      其中:$i = 1,...,{N_x}$$j = 1,...,{N_y}$${N_x}$是歌曲x所包含的帧数,${N_y}$是歌曲y包含的帧数;$\varTheta \left( \cdot \right)$是单位阶跃函数;$\varepsilon _i^x$$\varepsilon _j^y$是两个不同的距离阈值;$\left\| \cdot \right\|$是Euclidean范数,${x_i}$${y_j}$分别为在窗长ij下的歌曲xy的空间表示。只有${x_i}$${y_j}$邻近时,${C_{x,y}}\left( {i,j} \right) = 1$

      然后,将累计矩阵设为:${{Q}} = \left\{ {\left. {Q\left( {i,j} \right)|i = 1,...,{N_x},j = 1,...,{N_y}} \right\}} \right.$,并且当$i = 1,2,...,{N_x}$$j = 1,2,...,{N_y}$时初始化矩阵${{Q}}\left( {i,1} \right) = {{Q}}\left( {i,2} \right) = {{Q}}\left( {1,j} \right) = {{Q}}\left( {2,j} \right) = 0$,则累计矩阵${{Q}}$可以由式(6)计算得到。最后,将歌曲xy的相似度定义为累计矩阵${{Q}}$中所有元素的最大值,即${{{Q}}_{\max }} = \max \left( {{{Q}}\left( {i,j} \right)} \right)$

      其中:$i = 3,...,{N_x}$$j = 3,...,{N_y}$${\gamma _0}$为起始的惩罚函数;${\gamma _{\rm{e}}}$为延伸的惩罚函数。

      采用CD方法分别对歌词的TF·IDF特征和InferSent特征进行相似度计算,计算方法如下:

      其中:${{{l}}_1}$${{{l}}_2}$分别表示歌曲歌词及其翻唱歌曲歌词的特征向量;I的值越小表示两首歌的歌词越相近。

    • 传统的翻唱歌曲识别是基于音频内容实现的,文献[13]首次将歌曲名与歌词引入CSI领域,研究证明了不同模态的信息具有一定的互补性。为了充分利用音频内容与歌词间的互补性,本文采用SNF[11]算法融合音频相似度及平均化处理后的歌词相似度,具体实现步骤如下:

      设曲库中有n首歌曲$\left\{ {{x_1},{x_2},...,{x_n}} \right\}$$W\left( {i,j} \right)$表示歌曲${x_i}$${x_j}$之间的相似度,

      其中:$\mu $是可调的超参数;$\rho \left( {{x_i},{x_j}} \right)$表示歌曲${x_i}$和歌曲${x_j}$之间的欧式距离;${\varepsilon _{i,j}}$的具体计算方法如式(10)所示。

      其中,${\rm{mean}}\left( {\rho \left( {{x_i},{N_i}} \right)} \right)$表示${x_i}$与其每个近邻距离的平均值。

      采用式(11)对歌曲的相似度进行归一化,以融合多种相似度矩阵。

      使用K邻近(K-Nearest Neighbors,KNN)算法得到局部相关性。

      其中,${N_i}$表示${x_i}$的邻近数目。

      ${{{P}}^{\left( 1 \right)}}$${{{P}}^{\left( 2 \right)}}$分别表示不同的相似度,对应的核矩阵为${{{S}}^{\left( 1 \right)}}$${{{S}}^{\left( 2 \right)}}$,若${{P}}_{t = 0}^{\left( 1 \right)} = {{{P}}^{\left( 1 \right)}}$${{P}}_{t = 0}^{\left( 2 \right)} = {{{P}}^{\left( 2 \right)}}$分别表示在$t = 0$时刻两种不同相似度的初始状态,经过$t$次迭代得到:

      其中:${{P}}_{t + 1}^{\left( 1 \right)}$为第1种相似度经t次迭代后的状态矩阵;${{P}}_{t + 1}^{\left( 2 \right)}$为第2种相似度经t次迭代后的状态矩阵。因此,总的融合矩阵计算公式如下:

      由于${{S}}$${{P}}$的KNN图,因此可以减少样本间的一些噪声,同时也说明了SNF算法能够增强相似度的鲁棒性。

    • 为了验证模型的有效性,本文构造了面向翻唱检索的多模态样本库。首先根据Second Hand Song (SHS)(https://secondhandsongs.com/)提供的歌曲ID在7digital网站(https://www.7digital.com/)上爬取了12 730首翻唱歌曲的音频文件。然后利用Million Song Dataset网站(http://millionsongdataset.com/)将12 730首歌曲的音频文件ID映射为相应的歌词ID并利用Musixmatch网站(https://www.musixmatch.com/)提供的API获取6 257首歌曲的歌词。在此过程中,一方面去除了歌词完全相同的样本,另一方面利用多元翻译(Multi-source Translation, MTrans)将所有非英文的歌词全部转换成英文,最终,构建了Covers2326多模态数据库。该数据库由6 257首歌曲的音频文件及其相应的歌词文本文件组成,共分为2 326个翻唱组合。

    • 为了验证基于多模态的CSI模型的性能,选取TOP-10[19]、平均正确率均值(Mean Average Precision, MAP)、平均排序倒数均值(Mean averaged Reciprocal Rank, MaRR)及秩均值(Mean Rank, MR)作为评价指标。其中,TOP-10、MAP、MaRR的值越大表明基于多模态的翻唱歌曲检索算法性能越好,而MR的值越小表明其性能越好。

    • 基于单模态的翻唱歌曲识别准确率如表2所示。实验结果表明基于深度学习的音频特征提取算法(DPCP[14])优于基于手工特征的方法(CPCP[2]、MLD[4]及BSC[3]);基于歌词分析的方法远远优于基于音频的方法。

      AlgorithmTOP-10MAPMaRRMR
      CPCP1 5860.121 40.061 31 533.700 0
      MLD2 9170.197 20.097 81 114.300 0
      BSC3 1360.094 40.063 4833.554 3
      DPCP6 1010.437 90.206 9555.083 1
      InferSent11 9370.809 20.359 1200.369 2
      TF·IDF12 8980.875 30.390 5138.653 7

      表 2  基于单模态的翻唱歌曲识别算法性能比较

      Table 2.  CSI performance comparison of algorithms based on single modal

      基于多模态融合的翻唱歌曲识别准确率如表3所示。实验结果表明在歌词特征一定的情况下,包含DPCP的多模态相似度融合算法优于包含CPCP、MLD或BSC的多模态融合算法,从而进一步证明了基于深度学习的音频特征提取算法优于传统的手工特征提取方法。

      AlgorithmTOP-10MAPMaRRMR
      CSNF-TPGs7 6040.519 50.237 4719.386 0
      InferSent*TF·IDF12 9410.880 30.387 1128.577 1
      CPCP_Qmax+InferSent12 3050.845 00.366 2160.027 3
      CPCP_Qmax+ TF·IDF12 9020.889 00.383 5110.370 8
      MLD_Dmax+ InferSent12 7290.866 40.373 7123.178 5
      MLD_Dmax+ TF·IDF13 2270.903 40.388 582.019 5
      BSC_CC+InferSent12 5240.861 70.373 7149.545 8
      BSC_CC+ TF·IDF13 0430.895 50.387 0103.196 9
      DPCP_Qmax+InferSent13 1460.892 20.384 868.280 8
      DPCP_Qmax+ TF·IDF13 5160.924 40.397 047.826 4
      CPCP_Qmax +InferSent*TF·IDF12 9830.894 30.385 699.379 9
      MLD_Dmax+InferSent*TF·IDF13 2870.907 80.390 176.873 4
      BSC_CC +InferSent*TF·IDF13 1100.901 90.389 497.455 5
      DPCP_Qmax+InferSent*TF·IDF13 5830.927 90.398 344.389 5

      表 3  基于多模态的翻唱歌曲识别算法性能比较

      Table 3.  CSI performance comparison of algorithms based on multi-modal

      通过对比基于InferSent、TF·IDF及InferSent*TF·IDF的CSI识别准确率,可以看出不同特征的歌词相似度具有互补性。(1)DPCP_Qmax+InferSent的融合算法优于DPCP_Qmax或InferSent,DPCP_Qmax+TF·IDF优于DPCP、Qmax或TF·IDF,说明音频内容分析与歌词文本分析在一定程度上也具有互补性。(2)DPCP_Qmax+InferSent*TF·IDF的融合算法优于DPCP_Qmax+InferSent或DPCP_Qmax+TF·IDF说明不同的文本特征之间存在一定的共性和互补性。(3)本文模型(DPCP_Qmax+InferSent*TF·IDF)优于CSNF-TPGs。

      为了进一步说明本文模型优于CSNF-TPGs,选取Covers2326数据集中的257首歌曲作为实验对象进行对比实验,得到的相似度矩阵如图3所示。其中图3(a)表示CSNF-TPGs模型的相似度矩阵及其缩略图的扩大版本,图3(b)表示本文模型的相似度矩阵及其缩略图的扩大版本。实际上,该图是一个257×257的矩阵表示,矩阵中每个点的大小表示不同歌曲间的相似度。为了更加清晰地看出歌曲间的相似程度,从上述257首歌曲的相似度矩阵中截取10首歌曲的相似度,其中,每个绿色的线框表示一个翻唱组合,因而,这10首歌曲共分为5个翻唱组合。可以明显看出,DPCP_Qmax+InferSent*TF·IDF比CSNF-TPGs的效果好,这表明利用多模态信息融合的方法能够充分结合歌曲的不同方面的信息,增加组内相似性及减少组间相似性,从而有效地减少相似度矩阵中存在的噪声。

      图  3  CSNF-TPGs与本文模型的性能比较

      Figure 3.  Performance comparison between CSNF-TPGs and the proposed model

    • 为了对比基于张量积图融合的音乐相似度模型[12]与本文的基于多模态的CSI模型的时间复杂度,选取Covers2326数据集作为实验对象,分别计算两种模型相似度融合的时间复杂度。为了保证这两种模型的运行环境相同,实验设备统一为8 GB内存,处理器型号为Intel(R) Core(TM) i7-7700 CPU @3.60 GHz,MATLAB2014a。

      两种模型的时间复杂度如表4所示,其中,DPCP_Qmax+InferSent*TF·IDF模型的运行时间为134.01 s,CSNF-TPGs模型的运行时为15 220.27 s。本文模型比基于张量积图融合的音乐相似度模型在计算速度上提高了112倍,表明DPCP_Qmax+InferSent*TF·IDF模型的时间复杂度更低,更具有实用性。

      AlgorithmTime/s
      CSNF-TPGs15 220.27
      DPCP_Qmax+InferSent*TF·IDF134.01

      表 4  模型时间复杂度比较

      Table 4.  Comparison of time complexity between two models

    • 本文受到文献[13]的启发,提出了基于音频内容和歌词相似度融合的翻唱歌曲识别模型。该模型充分利用音乐音频内容和音乐歌词在表现音乐相似性方面的互补性,从而达到了比基于单个音频特征或音频特征相似度融合方法更高的识别准确率。同时,由于文本处理速度比音频处理速度快,且张量积图融合的速度较慢,因此所提出算法实现了更低的时间复杂度。

(3)  表(4) 参考文献 (19) 相关文章 (20)

目录

    /

    返回文章