MusiCRS

Name: MusiCRS
Creator: 加州大学圣地亚哥分校
Published: 2025-09-24 02:24:07
License: 暂无描述

arXiv2025-09-24 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/rohan2810/MusiCRS

下载链接

链接失效反馈

官方服务：

资源简介：

MusiCRS是一个音频为中心的对话式推荐系统基准，它将来自Reddit的真实用户对话与相应的音频曲目链接起来。该数据集包含477个高质量对话，涵盖古典、嘻哈、电子、金属、流行、独立和爵士等多样音乐类型，涉及3589个独特的音乐实体，并通过YouTube链接进行音频关联。MusiCRS支持在三种输入模态配置下进行评估：仅音频、仅查询和音频+查询（多模态），从而可以系统地比较音频大语言模型、检索模型和传统方法。实验结果表明，当前系统严重依赖文本信号，难以进行细微的音频推理，揭示了跨模态知识集成中的基本局限性。为了促进研究进展，我们发布了MusiCRS数据集、评估代码和全面的基准测试。

MusiCRS is an audio-centric conversational recommendation system benchmark that pairs real user conversations sourced from Reddit with corresponding audio track links. This dataset contains 477 high-quality conversations spanning diverse music genres including classical, hip-hop, electronic, metal, pop, indie, and jazz, involving 3589 unique music entities, with audio associations provided via YouTube links. MusiCRS supports evaluation under three input modality configurations: audio-only, query-only, and audio+query (multimodal), enabling systematic comparison of audio large language models, retrieval models, and traditional methods. Experimental results show that current systems heavily rely on textual signals and struggle with fine-grained audio reasoning, revealing fundamental limitations in cross-modal knowledge integration. To facilitate research progress, we have released the MusiCRS dataset, evaluation code, and comprehensive benchmark tests.

提供机构：

加州大学圣地亚哥分校

创建时间：

2025-09-24

搜集汇总

数据集介绍

构建方式

在音乐信息检索领域，构建能够反映真实用户交互的数据集至关重要。MusiCRS通过从七个高活跃度音乐主题Reddit子论坛中收集2800万条评论，采用三阶段过滤流程确保数据质量：首先筛选包含有效YouTube链接的帖子，保留46218个线程；随后剔除回复少于三条或评论过短的对话，得到10167个多轮讨论；最后通过人工验证保留477个高质量音乐对话，确保每个推荐均基于真实音频内容。

特点

作为首个以音频为中心的对话推荐基准，MusiCRS的独特价值体现在多维度特性。数据集涵盖古典、嘻哈、电子、金属、流行、独立和爵士七种音乐流派，包含3589个音乐实体，每个对话平均标注8个真实推荐项。其核心优势在于提供三种模态评估配置：纯音频、纯文本查询及多模态组合，支持对音频大语言模型、检索模型与传统方法的系统对比，精准捕捉模型在跨模态音乐理解中的能力边界。

使用方法

为推进多模态音乐推荐研究，MusiCRS设计了严谨的实验框架。研究者可通过三种输入模态配置展开评估：纯音频模式仅使用YouTube提取的音频片段，纯查询模式依赖对话文本，多模态模式则融合两者。评估时采用Recall、nDCG和MRR指标，候选集由真实标注项与同子论坛采样项混合组成，确保推荐场景的真实性。该设计支持生成式模型、检索模型与传统方法的横向比较，尤其适合探究音频语义与对话上下文的协同机制。

背景与挑战

背景概述

随着大语言模型在对话推荐系统领域的迅速发展，音乐推荐因其依赖音频内容理解而成为独特挑战。2025年由加州大学圣地亚哥分校团队发布的MusiCRS数据集，首次构建了基于真实Reddit对话与对应音频轨道的多模态评测基准。该数据集涵盖477个高质量对话线程，涉及古典、嘻哈、电子等七种音乐流派，通过3,589个音乐实体与YouTube音频链接实现内容锚定，填补了传统音乐数据集缺乏真实对话语境与音频内容关联的研究空白。

当前挑战

在领域问题层面，音乐对话推荐需解决抽象音乐概念与具体音频特征的对齐难题，例如模型难以通过文本元数据捕捉节奏、音色等细微音乐维度。构建过程中面临三重挑战：从海量Reddit数据中筛选兼具音乐关联性与对话质量的线程，需通过三层过滤机制确保实体相关性；音频锚定要求验证大量YouTube链接有效性并处理动态内容更新问题；多模态评估框架的设计需平衡不同输入模态的贡献度，当前系统仍过度依赖文本信号而缺乏跨模态知识融合能力。

常用场景

经典使用场景

在音乐信息检索领域，MusiCRS数据集通过整合真实Reddit对话与对应音频轨道，为音频中心对话推荐系统提供了首个标准化评估框架。该数据集覆盖古典、嘻哈、电子等七种音乐流派，支持纯音频、纯文本及多模态三种输入配置，使研究者能够系统分析模型在复杂音乐语义理解与跨模态推理方面的能力。

解决学术问题

MusiCRS解决了传统音乐推荐系统过度依赖文本元数据的局限性，通过音频与对话的深度融合，推动了对音乐节奏、音色等抽象特征的跨模态理解研究。其实验揭示出现有多模态模型在音频语义落地方面存在显著缺陷，为改进跨模态知识融合机制提供了关键洞察，填补了音乐对话推荐领域缺乏音频实体关联的空白。

衍生相关工作

基于MusiCRS的评估范式，衍生出对音频语言模型（如Qwen2-Audio、SALMONN）与检索系统（如CLAP、CoLLAP）的横向对比研究。这些工作深入探索了不同模态组合对推荐性能的影响，并催生了针对特定流派（如爵士乐高可解性、古典乐复杂性）的细粒度分析方法，推动了多模态音乐理解技术的迭代发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集