听歌消费数据集

Name: 听歌消费数据集
Creator: 法国Deezer研究院
Published: 2025-05-05 17:18:47
License: 暂无描述

arXiv2025-05-05 更新2025-05-08 收录

下载链接：

https://github.com/deezer/uncertainty_feedback

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集收集了Deezer音乐流媒体平台上用户的听歌历史数据，时间为2022年1月至2023年5月。数据集中包含了约11百万次的听歌事件，涉及40,600名唯一用户和12,500首唯一曲目。每个记录包含用户标识符、曲目标识符、时间戳和一个二进制变量，表示听歌事件是积极（1）还是消极（0，即跳过）。数据集旨在研究重复消费模式中的不确定性，并已被用于推荐系统中的用户偏好模型，以提高推荐的相关性和准确性。

This dataset compiles users' music listening history data from the Deezer music streaming platform, spanning the period from January 2022 to May 2023. It contains approximately 11 million listening events, involving 40,600 unique users and 12,500 unique tracks. Each record includes a user identifier, a track identifier, a timestamp, and a binary variable indicating whether the listening event is positive (1) or negative (0, i.e., the track was skipped). This dataset aims to investigate uncertainty in repeat consumption patterns, and has been used for user preference modeling in recommendation systems to improve the relevance and accuracy of recommendations.

提供机构：

法国Deezer研究院

创建时间：

2025-05-05

原始信息汇总

数据集概述

基本信息

数据集名称: Uncertainty in Repeated Implicit Feedback as a Measure of Reliability
相关论文: Uncertainty in Repeated Implicit Feedback as a Measure of Reliability
会议: 33rd International ACM Conference on User Modeling, Adaptation and Personalization (UMAP 2025)

研究背景

推荐系统依赖用户反馈学习有效的用户和物品表示。
隐式和显式反馈均存在噪声，隐式反馈尤其具有挑战性。
协作过滤中，交互信号的可靠性至关重要，因其决定用户和物品的相似性。
重复交互通常被视为用户兴趣更强的指标，但在音乐流媒体等领域，重复消费可能因饱和和曝光等因素改变用户偏好。

数据集内容

领域: 音乐流媒体
特点: 重复交互频繁且可量化
状态: 即将发布

技术方法

分析重复模式与影响用户兴趣关键因素的交叉点。
开发量化相关不确定性的方法。
将不确定性度量作为一致性指标整合到推荐任务中。
使用贝叶斯模型处理隐式收听反馈。

实验结果

将不确定性纳入用户偏好模型可产生更准确和相关推荐。

代码环境

Python 3.9.16
scipy 1.11.4
pandas 2.2.3
numpy 1.26.4
implicit 0.7.2

引用

bibtex @inproceedings{sguerra2025uncertainty, title={Uncertainty in Repeated Implicit Feedback as a Measure of Reliability}, author={Sguerra, Bruno and Tran, Viet-Anh and Hennequin, Romain and Moussallam, Manuel}, booktitle = {Proceedings of the 33rd ACM Conference on User Modeling, Adaptation and Personalization}, year = {2025} }

搜集汇总

数据集介绍

构建方式

听歌消费数据集基于Deezer音乐流媒体平台的实际用户收听行为构建，涵盖了2022年1月至2023年5月期间的收听记录。数据收集过程中排除了播放时间少于30秒的无效交互，并过滤了交互次数过少的用户和曲目，最终形成包含约1100万次交互、4.06万用户和1.25万曲目的高质量数据集。每个数据记录包含用户ID、曲目ID、时间戳以及表示是否完整收听的二元变量，为研究重复消费模式提供了可靠基础。

特点

该数据集最显著的特点是捕捉了音乐流媒体场景下典型的重复消费行为，通过量化播放次数和重听间隔时间两个关键维度，揭示了用户兴趣随重复接触变化的动态规律。数据呈现出典型的幂律分布特征，中位重复次数为1次，99分位达57次，这种高度偏态分布为研究重复消费的边际效应提供了理想样本。特别值得注意的是，数据集通过贝叶斯建模量化了用户行为中的认知不确定性和偶然不确定性，为理解隐式反馈的可靠性开辟了新视角。

使用方法

该数据集主要适用于音乐推荐系统的开发和评估，尤其适合研究重复消费行为和隐式反馈可靠性问题。使用时可通过贝叶斯后验分布计算特定播放次数和重听间隔下的用户兴趣期望值及置信区间，这些指标可作为改进推荐算法的权重参数。实验表明，将不确定性度量作为ALS矩阵分解模型的置信权重时，能显著提升Recall@20和NDCG@10等推荐指标。数据集还支持对用户消费模式的聚类分析，有助于识别不同类型的听众行为特征。

背景与挑战

背景概述

听歌消费数据集由Deezer Research France的研究团队于2025年创建，主要研究人员包括Bruno Sguerra、Viet-Anh Tran、Romain Hennequin和Manuel Moussallam。该数据集旨在解决音乐推荐系统中用户隐式反馈的可靠性问题，特别是在重复消费行为中隐含的不确定性。研究团队通过分析用户在音乐流媒体平台上的重复收听行为，揭示了用户兴趣的动态变化，如饱和效应和多次曝光效应。该数据集不仅为推荐系统提供了新的可靠性度量方法，还通过贝叶斯模型量化了隐式反馈中的不确定性，显著提升了推荐系统的准确性和相关性。

当前挑战

听歌消费数据集面临的挑战主要体现在两个方面：首先，在领域问题方面，音乐推荐系统需要处理用户隐式反馈的高噪声特性，如用户可能因好奇而非兴趣与内容互动，导致反馈信号不可靠。其次，在构建过程中，研究团队需解决重复消费行为中用户兴趣的动态变化问题，如饱和效应和多次曝光效应对反馈信号的影响。此外，数据稀疏性和时间间隔的离散化也增加了模型构建的复杂性，需要采用贝叶斯方法和插值技术来稳定不确定性估计。

常用场景

经典使用场景

听歌消费数据集在音乐推荐系统领域具有广泛的应用，特别是在研究用户重复消费行为和隐式反馈的可靠性方面。该数据集通过记录用户的听歌事件（如播放时长超过30秒的歌曲）和跳过行为，为研究者提供了丰富的用户行为数据。这些数据可以用于分析用户在重复听歌过程中的兴趣变化，以及如何利用这些变化来优化推荐算法。

解决学术问题

该数据集解决了音乐推荐系统中隐式反馈的可靠性问题。传统的推荐系统通常假设重复互动次数越多，用户兴趣越强，但该研究表明，重复消费可能导致用户兴趣的饱和或变化。通过量化隐式反馈中的不确定性（如Aleatoric Uncertainty和Epistemic Uncertainty），该数据集为构建更准确的用户偏好模型提供了新的方法。

衍生相关工作

该数据集衍生了一系列相关研究，特别是在重复消费和隐式反馈建模方面。例如，一些研究基于该数据集提出了新的加权方案（如线性加权和对数加权），用于改进隐式矩阵分解（ALS）模型的性能。此外，该数据集还被用于探索用户听歌行为的周期性模式，以及如何将这些模式整合到推荐算法中。

以上内容由遇见数据集搜集并总结生成