five

sirui1/MADB-Dataset

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/sirui1/MADB-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-4.0 ---
提供机构:
sirui1
搜集汇总
数据集介绍
main_image_url
构建方式
MADB数据集是一个面向音乐审美评估的大规模语料库,旨在支持多维与主观音乐感知的研究。该数据集包含约10,000个音乐片段,其中1,730条由Suno和Levo生成,4,400条源自MuChin数据集,其余来自多样化的在线来源。每个片段均由多名受过正规音乐训练且至少拥有学士学位的标注者进行评分,涵盖10个感知维度及一个总体得分,并附有文本评论与语义标签(风格与情绪)。此外,数据集中还设有验证集与样本子集,样本子集提供了从验证集中精选的200个音频及其对应的嵌入向量,便于模型对比与快速实验。
使用方法
MADB数据集适用于音乐审美评价、多模态学习(音频结合文本与标签)、音乐理解分析以及生成式音乐系统的评估等场景。用户可通过加载data/audio/目录下的MP3音频文件进行特征提取,并利用data/annotation/中的评分与标签数据进行回归或分类任务。样本子集中的sample_embedding提供了基于CLAP与MUQ模型提取的嵌入向量,可直接用于基准测试。数据集仅供研究使用,使用时需遵守原始音频数据的版权限制,确保合规性。
背景与挑战
背景概述
音乐审美评价是计算音乐学与多模态感知研究中的前沿课题,旨在量化听众对音乐作品在旋律、和声、表演及情感等多维度上的主观体验。MADB数据集由研究团队于近年构建,整合了来自Suno、Levo、Muchin及众多在线渠道的约10,000首音乐曲目,并由具备专业音乐训练背景的标注员在十个感知维度及一个总体评分上进行多重标注,辅以文本评语与语义标签。该数据集为音乐审美计算提供了首个大规模、细粒度的标注基准,有力推动了多模态学习与生成音乐质量评估领域的发展。
当前挑战
该数据集所应对的领域核心挑战在于音乐审美的强烈主观性与维度复杂性:不同个体对同一作品在旋律情感、编排感知等维度上的评价常存在显著差异,需通过多位标注员的多重评分与质量控制(由十年以上专家把关)来缓解偏差。数据集构建过程中的挑战则包括跨来源音频的版权合规性处理、标注员筛选标准(至少三年专业训练与学士学位)的严格统一、以及部分维度不适用的量化处理(赋值为0),同时还需确保多模态信息(音频、文本标签)的同步对齐与嵌入提取的可靠性。
常用场景
经典使用场景
MADB数据集在音乐美学评估领域扮演着基石角色,其经典使用场景集中于多维度音乐感知建模。研究人员可利用该数据集训练回归模型,预测用户对旋律、编曲、节奏、结构及表演技巧等十个感知维度的评分,并融合整体美学分数。数据集包含近万首音乐曲目,每首由多位专业受训标注者打分,并辅以文本评论与语义标签,支持音频、文本与标签的多模态联合学习。这一设计使得MADB成为评估音乐生成系统美学质量的理想基准,广泛应用于生成音乐的主观评价任务,推动音乐理解与自动化评估的深度融合。
解决学术问题
MADB数据集精准回应了音乐美学评估中长期存在的客观量化难题。传统研究多依赖主观问卷调查或单一维度打分,难以涵盖音乐感知的丰富层次。该数据集通过十维标注框架,系统捕获了旋律与编曲的情感、节奏结构、演唱技巧等细粒度特征,解决了多模态音乐理解中标注稀疏与主观性强的学术瓶颈。其贡献在于为音乐信息检索、情感计算及认知音乐学提供了标准化评估基准,促使研究者从定性描述转向定量建模,显著提升了音乐生成系统输出质量的客观可比性,对计算美学领域具有范式级的推动作用。
实际应用
在实际应用中,MADB数据集赋能了音乐产业中多个高价值场景。音乐流媒体平台可利用其标注框架,构建个性化推荐系统,根据用户对新曲目旋律、编曲及表演维度的偏好进行精准匹配,提升听歌体验。在音乐教育领域,数据集可作为教学辅助工具,量化分析不同演奏版本在技巧与情感表达上的差异,辅助学习与评估。此外,生成式AI音乐创作工具(如Suno、Levo)依托该数据集的美学评估模型,能够自动优化生成曲目,使其更符合人类审美标准,推动AI音乐从“可听”迈向“悦耳”的产业落地。
数据集最近研究
最新研究方向
在音乐美学计算领域,MADB数据集为多维度主观审美评估提供了大规模标注资源,其融合10个感知维度与文本评论、语义标签的多模态架构,正推动生成式音乐系统的客观评价标准从单一音质向旋律感知、编曲情感、演唱技巧等复合美学维度演进。该数据集涵盖AI生成音乐与人类创作音乐的对比标注,为评估Suno、Levo等AI音乐生成工具的艺术表现力提供了量化基准,同时其众包标注质量控制机制(三年以上专业训练、专家审核)确保了审美判断的可靠性,有望引领音乐信息检索领域从基础特征提取转向深层美学理解的新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作