引用本文:
【打印本页】   【HTML】   【下载PDF全文】   查看/发表评论  【EndNote】   【RefMan】   【BibTex】
←前一篇|后一篇→ 过刊浏览    高级检索
本文已被:浏览 2216次   下载 102 本文二维码信息
码上扫一扫!
分享到: 微信 更多
基于降噪自动编码器特征学习的音乐自动标注算法
黎鹏,陈宁
作者单位E-mail
黎鹏 华东理工大学信息科学与工程学院, 上海 200237  
陈宁 华东理工大学信息科学与工程学院, 上海 200237 chenning_750210@163.com 
摘要:
目前,音乐自动标注模型大多采用手动设计模式,因而存在最佳特征难以选择的问题。提出了一种基于非监督学习的特征学习算法,该算法能自动学习特征的潜在结构而不需要依赖先验知识。首先,预处理阶段主要提取音乐的音级轮廓频率谱并进行PCA白化降维处理;然后,采用深度学习中的降噪自动编码器算法对降维后的特征进行无监督的学习,并采用最大值池化和取均值来聚合得到新的特征向量;最后,将特征向量和标签送入多层感知机中进行有监督的学习。基于Magnatagatune和GTZAN数据库的实验结果表明,本文算法在一定程度上提高了音乐自动标注的准确率。
关键词:  深度学习  音乐自动标注  降噪自动编码器  多层感知机
DOI:10.14135/j.cnki.1006-3080.2017.02.014
分类号:
基金项目:国家自然科学基金(61271349)
Feature Learning for Music Auto-Tagging Using Denoising Autoencoder
LI Peng,CHEN Ning
Abstract:
At present,the models used in music auto-tagging are mostly hand-engineered,so the choice of the optimal feature is always difficult.We propose an unsupervised feature learning algorithm,which can automatically learn the underlying structure of feature without prior knowledge.The algorithm is achieved in three stages.The preprocessing stage extracts the chroma-frequency spectrogram,and reduces the dimensionality via PCA whitening.The second stage applies the denoising autoencoder to the reduced feature in an unsupervised manner,and aggregates a new feature vector by max-pooling function and averaging.The last stage maps the feature vector to song labels by pre-trained multilayer perceptron (MLP) in a supervised manner.The result based on the Magnatagatune and GTZAN datasets shows that our algorithm improves the accuracy of music auto-tagging to some degree.
Key words:  deep learning  music auto-tagging  denoising autoencoder  multilayer perceptron

地址:上海市梅陇路130号华东理工大学研究生楼1015室 邮编:200237

电话:021-64253812 传真:021-64253812 电子信箱: ecustxbb@ecust.edu.cn