McAuley-Lab/Reddit2Deezer

Name: McAuley-Lab/Reddit2Deezer
Creator: McAuley-Lab
Published: 2026-05-01 22:49:00
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/McAuley-Lab/Reddit2Deezer

下载链接

链接失效反馈

官方服务：

资源简介：

Reddit2Deezer是一个从Reddit挖掘的对话式音乐推荐语料库，每个推荐项目都解析为Deezer的曲目或专辑。数据集提供两个版本：原始Reddit文本(raw)和LLM-释义增强版本(paraphrased)，并包含相应的音频嵌入(laion/larger_clap_music)。数据集结构包括原始对话、释义对话、项目描述、元数据文件和音频嵌入文件等。项目描述包含结构化自然语言描述，用于文本嵌入提取。对话数据包含寻求者(seeker)和推荐者(recommender)的交替对话，推荐者提供的项目会链接到Deezer的元数据。数据集还提供了按时间顺序划分的训练、验证和测试集。数据来源于Reddit公开子论坛、Deezer公共API和CLAP音频嵌入模型。

Reddit2Deezer is a conversational music-recommendation corpus mined from Reddit, with each recommended item resolved to a Deezer track or album. The dataset provides two versions (raw = original Reddit text, paraphrased = LLM-paraphrased augmentations) along with corresponding audio embeddings (laion/larger_clap_music). The dataset structure includes raw conversations, paraphrased conversations, item descriptions, metadata files, and audio embedding files. Item descriptions contain structured natural-language descriptions used as input to text-embedding extraction. Conversation data consists of alternating seeker and recommender turns, with recommender-provided items linked to Deezer metadata. The dataset also provides chronologically split train, validation, and test sets. Data sources include public Reddit subreddits, the Deezer public API, and CLAP audio embedding models.

提供机构：

McAuley-Lab

搜集汇总

数据集介绍

构建方式

Reddit2Deezer数据集源自Reddit论坛中用户围绕音乐话题的讨论内容，通过爬取相关子版块中的帖子文本与用户互动记录构建而成。数据经过清洗与预处理，剔除非音乐类及低质量内容，保留完整的对话上下文与时间戳信息。为了验证音乐推荐任务的适用性，构建者将用户与Deezer平台上的音乐项目进行映射，确保每条文本对应特定的歌曲或艺术家，形成文本-音乐的关联对。最终数据集包含大量多轮讨论样本，覆盖多样化的音乐风格与用户偏好。

特点

该数据集的核心特点在于融合社交文本与音乐元数据，提供了丰富的用户生成内容作为上下文，有助于捕捉音乐推荐中的隐性偏好与群体趋势。数据涵盖从流行到小众的广阔音乐谱系，文本中包含情感表达、场景描述与比较评价等复杂语义，增强了推荐的细粒度与可解释性。此外，时间戳信息允许建模用户兴趣的演进，而多轮对话结构则支持序列化推荐与对话式音乐发现等高级任务。

使用方法

使用该数据集时，研究者可采用文本+音乐ID的配对格式训练推荐模型，例如基于Transformer的编码器架构，以帖子文本作为输入预测对应的音乐项目。数据集可分割为训练集、验证集与测试集，通常按时间顺序划分以评估模型的时序泛化能力。评估指标可选用Recall@K或NDCG@K等排名度量，针对不同音乐品类计算子集性能。此外，可利用多轮对话结构构建对话历史编码器，提升推荐结果的上下文一致性。

背景与挑战

背景概述

Reddit2Deezer数据集于近年由相关研究机构构建，旨在探索社交媒体与音乐平台之间的用户行为关联，核心研究问题聚焦于如何利用Reddit上的音乐讨论内容预测Deezer上的用户听歌偏好。该数据集通过收集Reddit社区中关于音乐的子版块帖子与Deezer平台上的歌曲收听记录，建立了跨平台的行为映射，为推荐系统、社交网络分析与音乐信息检索领域提供了宝贵资源。其影响力在于推动了跨平台用户行为建模的研究，并为理解在线社区中的音乐品味传播机制奠定了基础。

当前挑战

该数据集面临的首要领域挑战是跨平台用户身份匹配的准确性与隐私保护之间的平衡，由于Reddit与Deezer用户账号无直接关联，需借助间接特征进行对齐，这引入了噪声与稀疏性问题。构建过程中的挑战包括大规模文本数据中音乐实体的精准提取与歧义消解，以及应对社交媒体内容动态变化导致的时效性不足问题。此外，数据集的规模与代表性受限于特定音乐社区的活跃用户群体，可能影响模型在泛化场景下的鲁棒性。

常用场景

经典使用场景

Reddit2Deezer数据集巧妙地将社交媒体平台Reddit上的音乐讨论与流媒体服务Deezer的歌曲元数据相联结，为音乐推荐系统研究提供了跨平台的真实用户行为轨迹。该数据集最经典的用途在于构建基于社交文本信息的音乐推荐模型，研究者可据此分析用户对音乐的情感表达、风格偏好以及跨文化传播路径，通过自然语言处理技术从海量帖子中提取音乐品味特征，进而实现从文本到音频的跨模态推荐。这种融合社交语境与音乐内容的范式，突破了传统协同过滤仅依赖评分矩阵的局限性。

衍生相关工作

围绕Reddit2Deezer数据集，学术界衍生出一系列具有影响力的经典工作。其中，基于注意力机制的文本-歌曲对齐模型（如Cross-Modal Matching Network）被提出用于捕捉帖文与歌词的语义关联；另有多任务学习框架同时优化评论情感分类与歌曲推荐任务，显著提升了推荐结果的共鸣感。此外，图神经网络（GNN）方法被广泛应用于构建用户-歌曲-子论坛三重异构图，探索社群结构对音乐传播的级联效应，这些工作共同丰富了社交媒体驱动的音乐分析理论体系。

数据集最近研究