MADB-Dataset

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/sirui1/MADB-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MADB（音乐美学数据集与基准）是一个大规模的音乐美学评估数据集，旨在支持多维度及主观音乐感知的研究。该数据集包含约10,000首音乐曲目，每首曲目由多位经过培训的标注者在10个感知维度和一个总体评分上进行标注。此外，每首曲目还包括文本评论和语义标签（流派和情绪），支持多模态学习。音频数据包括来自Suno和Levo生成的1730首曲目、来自Muchin数据集的4400首曲目，以及从其他在线来源收集的曲目。标注数据包括每个维度的平均评分、完整的标注数据（含每位标注者的评分、文本评论、流派和情绪标签）以及验证集的分割信息。数据集适用于音乐美学评估、多模态学习（音频+文本+标签）、音乐理解与分析以及生成音乐系统的评估。

MADB (Music Aesthetics Dataset and Benchmark) is a large-scale music aesthetics evaluation dataset designed to support research on multi-dimensional and subjective music perception. The dataset contains approximately 10,000 music tracks, each annotated by multiple trained annotators on 10 perceptual dimensions and an overall rating. Additionally, each track includes textual comments and semantic tags (genre and mood), supporting multimodal learning. The audio data comprises 1,730 tracks generated by Suno and Levo, 4,400 tracks from the Muchin dataset, and tracks collected from other online sources. The annotation data includes average ratings for each dimension, complete annotation data (including each annotators ratings, textual comments, genre and mood tags), and validation set split information. The dataset is suitable for music aesthetics evaluation, multimodal learning (audio + text + tags), music understanding and analysis, and evaluation of music generation systems.

创建时间：

2026-04-30

原始信息汇总

MADB：音乐美学数据集与基准

数据集概述

MADB 是一个大规模音乐美学评估数据集，旨在支持多维度、主观音乐感知研究。该数据集包含约 10,000 首音乐曲目，每首曲目由 多名经过训练的标注者 在 10 个感知维度 及一个总体评分上进行标注。每首曲目还包含 文本评论 和 语义标签（流派和情绪），支持多模态学习。

数据组成

音频

所有音频文件以 mp3 格式存储在 data/audio/ 目录下。
其中 1730 首曲目由 Suno 和 Levo 生成。
4400 首曲目来自 Muchin 数据集(https://github.com/CarlWangChina/MuChin)。
其余曲目收集自多种在线来源。

标注标注文件存储在 data/annotation/ 目录下：

avg_score.csv：每首曲目各维度的平均得分。
MADB_data.csv：完整的标注数据，包括每位标注者的评分、文本评论、流派和情绪标签。
split_val_seed5.csv：使用随机种子 5 划分的验证集。

样本样本存储在 sample/ 目录下：

sample_audio：从验证集中选取的 200 个音频样本，其中 100 个随机选自 Muchin、50 个来自 Levo、50 个来自 Suno。
sample_embedding：从样本音频中提取的嵌入向量，包括：
- clap：使用原始 CLAP 提取。
- muq：使用原始 MuQ 提取。
- clap_com：使用经过评论适配的 CLAP 提取。
- clap_com_tag：使用经过评论和标签适配的 CLAP 提取。
sample_ids.csv：包含所有样本音频的 ID。

标注框架

每首曲目在以下维度上进行评分：

旋律感知
旋律情感
编曲感知
编曲情感
节奏感知
结构感知
表演与演唱情绪
吐字与演唱技巧
表演技巧
音效感知
总体评分

某些维度可能 不适用，此时赋值为 0。

标注过程

标注者至少接受过 3 年正式音乐训练。
所有标注者至少拥有 学士学位。
质量控制由具有 10 年以上专业经验 的专家进行。
每首曲目由多名标注者评分。

预期用途

该数据集适用于：

音乐美学评估
多模态学习（音频 + 文本 + 标签）
音乐理解与分析
生成式音乐系统的评估

许可与使用

音频数据可能受原始版权限制。
用户应确保遵守原始数据来源的规定。
本数据集仅限研究用途。

搜集汇总

数据集介绍

构建方式

MADB-Dataset是一个专为音乐美学评估设计的大规模数据集，旨在支持多维度与主观音乐感知研究。其构建过程严谨而系统，汇集了约10,000首音乐曲目，涵盖从Suno、Levo生成的音频、MuChin数据集中的曲目以及多样化的在线资源。每首曲目由多位受过正规音乐训练（至少三年经验）且拥有学士学位的标注者进行评分，覆盖10个感知维度及一个总体分数，同时附有文本评论和语义标签（如风格与情绪），以促进多模态学习。数据集还通过拥有超过十年专业经验的专家进行质量控制，确保标注的一致性与可靠性。

特点

MADB-Dataset的显著特点在于其多维度的美学评估框架与丰富的数据层。它不仅仅是一个音频集合，更是一个融合了听觉、文本和标签信息的综合资源。其10个评估维度分别针对旋律、编排、节奏、结构、表演技能和音效等不同方面，从感知和情绪两个层面进行深入剖析，部分维度可标记为不适用（赋值为0），体现了对主观审美复杂性的尊重。此外，数据集提供了验证集样本及多种预提取的嵌入表示（如CLAP、MUQ），便于研究者快速启动模型训练与评估。

使用方法

该数据集适用于多种研究场景，包括音乐美学评估、多模态学习（音频、文本与标签融合）以及生成音乐系统的评估。研究者可利用`avg_score.csv`文件获取每首曲目的平均分数进行回归任务，或使用完整的`MADB_data.csv`进行逐标注者的评分分析、文本情感挖掘或标签预测。数据集内包含的样本音频及其预提取嵌入（如`clap`、`muq`）可作为快速原型开发的起始点。使用者需注意音频数据可能受原始版权限制，本数据集仅限研究用途，并应遵守原始数据源的使用条款。

背景与挑战

背景概述

音乐审美评价是计算音乐学与多模态感知研究的核心议题，旨在量化人耳对音乐多维度的主观体验。MADB-Dataset（Music Aesthetics Dataset and Benchmark）由研究团队于近期构建，包含约10,000首音乐曲目，每首曲目经多位受过专业训练的标注者在10个感知维度（如旋律感知、编曲情感、节奏结构等）及总体评分上进行标注，并附有文本评论与语义标签。该数据集整合了Suno、Levo及Muchin数据集等多元来源，覆盖生成音乐与真实录音，为音乐审美评估、多模态学习及生成式音乐系统评价提供了大规模基准。其发布推动了音乐感知客观化建模与跨模态表征学习的发展。

当前挑战

音乐审美评估面临主观性强烈与维度复杂的双重挑战。领域问题层面，审美感知因人而异且高度依赖文化背景，现有模型难以统一量化“美感”这一抽象概念；多维度标签（如旋律与编曲情绪）间存在非线性交互，增加了回归任务的难度。数据集构建过程中，标注者需具备三年以上音乐训练背景与学士学位，筛选与培训成本高昂；每首曲目需多位标注者以确保可靠性，但标注一致性控制（如专家质检）仍难以完全消除个体偏差；此外，曲目版权限制与来源异构性（如生成音频与真实录音混用）也带来了数据标准化与合规使用的挑战。

常用场景

经典使用场景

MADB数据集在音乐美学评估领域扮演着举足轻重的角色，其核心应用场景集中于音乐感知的多维度量化分析。研究者和工程师可借助该数据集，训练模型以预测音乐在旋律、编曲、节奏、结构、表演技巧乃至声效设计等多个审美维度的主观评分。经典用法包括基于音频特征（如音色、和声、节奏谱）或文本特征（如用户评论、语义标签）的回归任务，旨在从音乐信号中精准推断出听众的审美偏好。这一框架为音乐推荐系统、自动作曲评估及个性化音乐体验提供了坚实的基准，常被用于对比不同模型在捕捉音乐美学复杂性方面的表现，从而推动音乐理解技术的边界拓展。

实际应用

在实际应用层面，MADB数据集赋能了一系列创新性的音乐科技产品与服务。音乐流媒体平台可利用基于该数据集训练的模型，对海量曲库进行美学维度的自动标注，从而实现超越简单风格或情绪标签的精细推荐，如在心情低落时为用户推荐“编曲丰富”且“表演充满感染力”的曲目。此外，该数据集在生成式音乐领域展现出巨大潜力：通过对AI作曲系统（如Suno、Levo）生成的作品进行多维度审美评估，开发者能客观衡量模型在旋律美感与结构连贯性上的表现，从而指导模型迭代。语音助手和音乐教育软件也可借此提供关于旋律感知、节奏结构等维度的实时反馈，使音乐学习与欣赏更加智能化和个性化。

衍生相关工作

MADB数据集催生了一系列经典的相关研究工作，尤其在多模态音乐理解领域。研究者利用其提供的音轨音频、文本评论与语义标签，探索了基于对比学习的音频—文本对齐模型（如CLAP）的适应方法，创造了如CLAP_com和CLAP_com_tag等变体，通过融合注释文本和标签信息来提升音乐嵌入的表达能力。这些工作验证了多模态融合在美学评估中的有效性，并衍生出了新的基准任务，例如基于音频特征预测特定维度的美学分数，以及利用生成的嵌入进行音乐检索与相似度评估。此外，注释中涵盖的乐理相关维度（如和弦编排、演奏技巧）促使了音乐理论知识与深度学习模型的交叉研究，推动了可解释性音乐评估模型的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集