McAuley-Lab/Reddit2Deezer
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/McAuley-Lab/Reddit2Deezer
下载链接
链接失效反馈官方服务:
资源简介:
Reddit2Deezer是一个从Reddit挖掘的对话式音乐推荐语料库,每个推荐项目都解析为Deezer的曲目或专辑。数据集提供两个版本:原始Reddit文本(raw)和LLM-释义增强版本(paraphrased),并包含相应的音频嵌入(laion/larger_clap_music)。数据集结构包括原始对话、释义对话、项目描述、元数据文件和音频嵌入文件等。项目描述包含结构化自然语言描述,用于文本嵌入提取。对话数据包含寻求者(seeker)和推荐者(recommender)的交替对话,推荐者提供的项目会链接到Deezer的元数据。数据集还提供了按时间顺序划分的训练、验证和测试集。数据来源于Reddit公开子论坛、Deezer公共API和CLAP音频嵌入模型。
Reddit2Deezer is a conversational music-recommendation corpus mined from Reddit, with each recommended item resolved to a Deezer track or album. The dataset provides two versions (raw = original Reddit text, paraphrased = LLM-paraphrased augmentations) along with corresponding audio embeddings (laion/larger_clap_music). The dataset structure includes raw conversations, paraphrased conversations, item descriptions, metadata files, and audio embedding files. Item descriptions contain structured natural-language descriptions used as input to text-embedding extraction. Conversation data consists of alternating seeker and recommender turns, with recommender-provided items linked to Deezer metadata. The dataset also provides chronologically split train, validation, and test sets. Data sources include public Reddit subreddits, the Deezer public API, and CLAP audio embedding models.
提供机构:
McAuley-Lab
搜集汇总
数据集介绍

构建方式
Reddit2Deezer数据集源自Reddit论坛中用户围绕音乐话题的讨论内容,通过爬取相关子版块中的帖子文本与用户互动记录构建而成。数据经过清洗与预处理,剔除非音乐类及低质量内容,保留完整的对话上下文与时间戳信息。为了验证音乐推荐任务的适用性,构建者将用户与Deezer平台上的音乐项目进行映射,确保每条文本对应特定的歌曲或艺术家,形成文本-音乐的关联对。最终数据集包含大量多轮讨论样本,覆盖多样化的音乐风格与用户偏好。
特点
该数据集的核心特点在于融合社交文本与音乐元数据,提供了丰富的用户生成内容作为上下文,有助于捕捉音乐推荐中的隐性偏好与群体趋势。数据涵盖从流行到小众的广阔音乐谱系,文本中包含情感表达、场景描述与比较评价等复杂语义,增强了推荐的细粒度与可解释性。此外,时间戳信息允许建模用户兴趣的演进,而多轮对话结构则支持序列化推荐与对话式音乐发现等高级任务。
使用方法
使用该数据集时,研究者可采用文本+音乐ID的配对格式训练推荐模型,例如基于Transformer的编码器架构,以帖子文本作为输入预测对应的音乐项目。数据集可分割为训练集、验证集与测试集,通常按时间顺序划分以评估模型的时序泛化能力。评估指标可选用Recall@K或NDCG@K等排名度量,针对不同音乐品类计算子集性能。此外,可利用多轮对话结构构建对话历史编码器,提升推荐结果的上下文一致性。
背景与挑战
背景概述
Reddit2Deezer数据集于近年由相关研究机构构建,旨在探索社交媒体与音乐平台之间的用户行为关联,核心研究问题聚焦于如何利用Reddit上的音乐讨论内容预测Deezer上的用户听歌偏好。该数据集通过收集Reddit社区中关于音乐的子版块帖子与Deezer平台上的歌曲收听记录,建立了跨平台的行为映射,为推荐系统、社交网络分析与音乐信息检索领域提供了宝贵资源。其影响力在于推动了跨平台用户行为建模的研究,并为理解在线社区中的音乐品味传播机制奠定了基础。
当前挑战
该数据集面临的首要领域挑战是跨平台用户身份匹配的准确性与隐私保护之间的平衡,由于Reddit与Deezer用户账号无直接关联,需借助间接特征进行对齐,这引入了噪声与稀疏性问题。构建过程中的挑战包括大规模文本数据中音乐实体的精准提取与歧义消解,以及应对社交媒体内容动态变化导致的时效性不足问题。此外,数据集的规模与代表性受限于特定音乐社区的活跃用户群体,可能影响模型在泛化场景下的鲁棒性。
常用场景
经典使用场景
Reddit2Deezer数据集巧妙地将社交媒体平台Reddit上的音乐讨论与流媒体服务Deezer的歌曲元数据相联结,为音乐推荐系统研究提供了跨平台的真实用户行为轨迹。该数据集最经典的用途在于构建基于社交文本信息的音乐推荐模型,研究者可据此分析用户对音乐的情感表达、风格偏好以及跨文化传播路径,通过自然语言处理技术从海量帖子中提取音乐品味特征,进而实现从文本到音频的跨模态推荐。这种融合社交语境与音乐内容的范式,突破了传统协同过滤仅依赖评分矩阵的局限性。
衍生相关工作
围绕Reddit2Deezer数据集,学术界衍生出一系列具有影响力的经典工作。其中,基于注意力机制的文本-歌曲对齐模型(如Cross-Modal Matching Network)被提出用于捕捉帖文与歌词的语义关联;另有多任务学习框架同时优化评论情感分类与歌曲推荐任务,显著提升了推荐结果的共鸣感。此外,图神经网络(GNN)方法被广泛应用于构建用户-歌曲-子论坛三重异构图,探索社群结构对音乐传播的级联效应,这些工作共同丰富了社交媒体驱动的音乐分析理论体系。
数据集最近研究
最新研究方向
Reddit2Deezer数据集作为连接社交媒体讨论与音乐平台偏好的跨域资源,近期被广泛用于探索多模态推荐系统与社会文化分析。在推荐系统领域,研究者聚焦于利用Reddit用户对艺人的提及频次与情感倾向,构建基于社交信号的协同过滤模型,以缓解冷启动问题。此外,该数据集亦推动了音乐品味的社会学量化研究——通过解析不同子版块(subreddits)中的音乐讨论模式,揭示社区身份认同与听觉偏好之间的隐性关联。结合自然语言处理技术,前沿工作尝试从帖子文本中提取音乐亚文化演变特征,并将其与Deezer平台上的地理分布数据进行交叉验证,为文化地理学与计算社会科学的交叉范式提供实证基础。
以上内容由遇见数据集搜集并总结生成



