cmi-pref

Hugging Face2026-02-26 更新2026-02-27 收录

下载链接：

https://huggingface.co/datasets/HaiwenXia/cmi-pref

下载链接

链接失效反馈

官方服务：

资源简介：

CMI-Pref 是一个音乐偏好对比数据集，包含人工对两个生成音频的偏好选择（包括音乐性和对齐性）及相应的置信度评分。数据集结构包括训练和测试用的 JSONL 文件、参考音频和生成音频目录。当前版本包含 4027 个样本，其中训练集 3527 个，测试集 500 个，涉及 23 个模型，总时长为 133.80 小时。数据集字段包括音频路径、参考音频路径、提示词、歌词、提示 ID、反馈、音乐性和对齐性偏好（模型 A/B）、置信度评分（1.0~5.0，步长 0.5）、用户 ID 等。该数据集适用于偏好预测和多模态音乐生成任务，支持文本到音频和音频到音频的应用场景，采用 cc-by-nc-sa-4.0 许可协议，提供中英文版本。

CMI-Pref is a music preference comparison dataset that contains human preference selections between two generated audios (covering musicality and alignment) and their corresponding confidence scores. The dataset structure consists of JSONL files for training and testing, as well as directories for reference audios and generated audios. The current version includes 4027 samples, with 3527 for the training set and 500 for the test set, involving 23 models, and the total duration reaches 133.80 hours. The dataset fields include audio path, reference audio path, prompt, lyrics, prompt ID, feedback, musicality and alignment preferences (model A/B), confidence score (ranging from 1.0 to 5.0 with a step size of 0.5), user ID, and so on. This dataset is suitable for preference prediction and multimodal music generation tasks, supporting text-to-audio and audio-to-audio application scenarios. It is licensed under cc-by-nc-sa-4.0, and both Chinese and English versions are provided.

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在音乐生成与评估领域，构建高质量的人类偏好数据集对于推动多模态音乐生成研究至关重要。CMI-Pref数据集的构建过程精心设计了基于人类投票的比较机制，每条记录代表一次独立的人类投票，用于对比两个生成的音频样本。数据收集涵盖了多种模态组合，包括纯文本、纯音频、音频加歌词以及纯歌词提示，确保了数据来源的多样性。数据集特意保留了重叠投票的设计，即同一对比对可能由多位用户评价，这反映了真实世界偏好收集的复杂性，每条记录均对应一次独立的个体投票，未进行聚合处理。

使用方法

为便于研究使用，数据集已预先划分为训练集与测试集。训练集包含3527次投票，可用于训练音乐偏好预测或奖励模型；测试集包含500次经过模态平衡的投票，专为模型评估与基准测试设计。数据以JSON Lines格式存储，每条记录包含了音频路径、提示文本、歌词、偏好标注、置信度分数及详细的用户交互元数据。研究者可直接加载这些文件，利用提供的音频样本路径、多维度偏好标签及置信度分数，开展模型训练、验证与性能分析工作。数据集遵循CC-BY-NC-SA 4.0许可，确保了在非商业研究场景下的合规使用与共享。

背景与挑战

背景概述

随着多模态音乐生成技术的迅猛发展，评估生成音乐的质量与人类偏好之间的契合度成为该领域的关键研究课题。CMI-Pref数据集应运而生，由Y.Ma、H.Xia、H.Gao等研究人员于2026年创建，旨在为音乐偏好预测提供详尽的标注数据。该数据集聚焦于解决多模态音乐生成中音乐性与提示对齐性的量化评估问题，通过收集超过4000条人类投票记录，涵盖文本、音频、歌词等多种模态组合，为构建高效的音乐奖励模型奠定了数据基础，对推动个性化音乐生成与智能作曲系统的研究具有显著影响力。

当前挑战

在音乐生成领域，准确捕捉人类对音乐多维度的主观偏好是一项复杂挑战，涉及音乐性、情感表达及与提示的语义对齐等多个抽象维度。CMI-Pref数据集构建过程中，需克服多模态数据对齐的困难，确保音频、歌词与文本提示在语义层面的一致性；同时，人类标注者的主观差异与偏好波动为数据收集带来噪声，需通过设计重叠投票与置信度评分机制以增强数据的鲁棒性与代表性。此外，平衡不同模态的数据分布以构建无偏测试集，亦对数据集的科学性与实用性构成考验。

常用场景

经典使用场景

在音乐生成模型的评估与优化领域，CMI-Pref数据集通过收集人类对生成音频样本的偏好投票，为多模态音乐生成研究提供了关键基准。该数据集以音乐性和对齐性两个维度标注偏好，并包含置信度评分，使得研究人员能够系统性地训练和验证奖励模型，从而精准量化生成音乐的质量与提示一致性。其平衡的测试集设计覆盖了文本、音频、歌词等多种模态组合，确保了评估的全面性与鲁棒性，成为推动音乐生成技术向人性化方向演进的重要工具。

解决学术问题

CMI-Pref数据集有效应对了音乐生成研究中长期存在的评估难题，即如何客观衡量生成音乐的艺术价值与语义契合度。通过引入人类偏好数据，该数据集为构建可学习的奖励函数提供了实证基础，使得模型优化不再依赖于简单的客观指标，而是更贴近人类审美判断。这解决了传统方法在音乐性、情感表达及多模态对齐等方面评估不足的问题，促进了生成模型从技术驱动向用户体验驱动的范式转变，对计算创造力领域具有深远影响。

实际应用

在实际应用中，CMI-Pref数据集为音乐生成平台和创意工具的开发提供了重要参考。基于该数据集训练的奖励模型可集成至音乐生成系统中，实时评估生成结果的质量，辅助内容创作者筛选或优化作品。例如，在个性化音乐推荐、交互式作曲助手及影视配乐生成等场景中，系统能够依据人类偏好数据自动调整生成参数，提升输出音乐的听觉享受与场景适配性，从而增强用户体验并推动创意产业的智能化发展。

数据集最近研究