five

听歌消费数据集|音乐推荐系统数据集|用户行为分析数据集

收藏
arXiv2025-05-05 更新2025-05-08 收录
音乐推荐系统
用户行为分析
下载链接:
https://github.com/deezer/uncertainty_feedback
下载链接
链接失效反馈
资源简介:
本数据集收集了Deezer音乐流媒体平台上用户的听歌历史数据,时间为2022年1月至2023年5月。数据集中包含了约11百万次的听歌事件,涉及40,600名唯一用户和12,500首唯一曲目。每个记录包含用户标识符、曲目标识符、时间戳和一个二进制变量,表示听歌事件是积极(1)还是消极(0,即跳过)。数据集旨在研究重复消费模式中的不确定性,并已被用于推荐系统中的用户偏好模型,以提高推荐的相关性和准确性。
提供机构:
法国Deezer研究院
创建时间:
2025-05-05
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Uncertainty in Repeated Implicit Feedback as a Measure of Reliability
  • 相关论文: Uncertainty in Repeated Implicit Feedback as a Measure of Reliability
  • 会议: 33rd International ACM Conference on User Modeling, Adaptation and Personalization (UMAP 2025)

研究背景

  • 推荐系统依赖用户反馈学习有效的用户和物品表示。
  • 隐式和显式反馈均存在噪声,隐式反馈尤其具有挑战性。
  • 协作过滤中,交互信号的可靠性至关重要,因其决定用户和物品的相似性。
  • 重复交互通常被视为用户兴趣更强的指标,但在音乐流媒体等领域,重复消费可能因饱和和曝光等因素改变用户偏好。

数据集内容

  • 领域: 音乐流媒体
  • 特点: 重复交互频繁且可量化
  • 状态: 即将发布

技术方法

  • 分析重复模式与影响用户兴趣关键因素的交叉点。
  • 开发量化相关不确定性的方法。
  • 将不确定性度量作为一致性指标整合到推荐任务中。
  • 使用贝叶斯模型处理隐式收听反馈。

实验结果

  • 将不确定性纳入用户偏好模型可产生更准确和相关推荐。

代码环境

  • Python 3.9.16
  • scipy 1.11.4
  • pandas 2.2.3
  • numpy 1.26.4
  • implicit 0.7.2

引用

bibtex @inproceedings{sguerra2025uncertainty, title={Uncertainty in Repeated Implicit Feedback as a Measure of Reliability}, author={Sguerra, Bruno and Tran, Viet-Anh and Hennequin, Romain and Moussallam, Manuel}, booktitle = {Proceedings of the 33rd ACM Conference on User Modeling, Adaptation and Personalization}, year = {2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
听歌消费数据集基于Deezer音乐流媒体平台的实际用户收听行为构建,涵盖了2022年1月至2023年5月期间的收听记录。数据收集过程中排除了播放时间少于30秒的无效交互,并过滤了交互次数过少的用户和曲目,最终形成包含约1100万次交互、4.06万用户和1.25万曲目的高质量数据集。每个数据记录包含用户ID、曲目ID、时间戳以及表示是否完整收听的二元变量,为研究重复消费模式提供了可靠基础。
特点
该数据集最显著的特点是捕捉了音乐流媒体场景下典型的重复消费行为,通过量化播放次数和重听间隔时间两个关键维度,揭示了用户兴趣随重复接触变化的动态规律。数据呈现出典型的幂律分布特征,中位重复次数为1次,99分位达57次,这种高度偏态分布为研究重复消费的边际效应提供了理想样本。特别值得注意的是,数据集通过贝叶斯建模量化了用户行为中的认知不确定性和偶然不确定性,为理解隐式反馈的可靠性开辟了新视角。
使用方法
该数据集主要适用于音乐推荐系统的开发和评估,尤其适合研究重复消费行为和隐式反馈可靠性问题。使用时可通过贝叶斯后验分布计算特定播放次数和重听间隔下的用户兴趣期望值及置信区间,这些指标可作为改进推荐算法的权重参数。实验表明,将不确定性度量作为ALS矩阵分解模型的置信权重时,能显著提升Recall@20和NDCG@10等推荐指标。数据集还支持对用户消费模式的聚类分析,有助于识别不同类型的听众行为特征。
背景与挑战
背景概述
听歌消费数据集由Deezer Research France的研究团队于2025年创建,主要研究人员包括Bruno Sguerra、Viet-Anh Tran、Romain Hennequin和Manuel Moussallam。该数据集旨在解决音乐推荐系统中用户隐式反馈的可靠性问题,特别是在重复消费行为中隐含的不确定性。研究团队通过分析用户在音乐流媒体平台上的重复收听行为,揭示了用户兴趣的动态变化,如饱和效应和多次曝光效应。该数据集不仅为推荐系统提供了新的可靠性度量方法,还通过贝叶斯模型量化了隐式反馈中的不确定性,显著提升了推荐系统的准确性和相关性。
当前挑战
听歌消费数据集面临的挑战主要体现在两个方面:首先,在领域问题方面,音乐推荐系统需要处理用户隐式反馈的高噪声特性,如用户可能因好奇而非兴趣与内容互动,导致反馈信号不可靠。其次,在构建过程中,研究团队需解决重复消费行为中用户兴趣的动态变化问题,如饱和效应和多次曝光效应对反馈信号的影响。此外,数据稀疏性和时间间隔的离散化也增加了模型构建的复杂性,需要采用贝叶斯方法和插值技术来稳定不确定性估计。
常用场景
经典使用场景
听歌消费数据集在音乐推荐系统领域具有广泛的应用,特别是在研究用户重复消费行为和隐式反馈的可靠性方面。该数据集通过记录用户的听歌事件(如播放时长超过30秒的歌曲)和跳过行为,为研究者提供了丰富的用户行为数据。这些数据可以用于分析用户在重复听歌过程中的兴趣变化,以及如何利用这些变化来优化推荐算法。
解决学术问题
该数据集解决了音乐推荐系统中隐式反馈的可靠性问题。传统的推荐系统通常假设重复互动次数越多,用户兴趣越强,但该研究表明,重复消费可能导致用户兴趣的饱和或变化。通过量化隐式反馈中的不确定性(如Aleatoric Uncertainty和Epistemic Uncertainty),该数据集为构建更准确的用户偏好模型提供了新的方法。
衍生相关工作
该数据集衍生了一系列相关研究,特别是在重复消费和隐式反馈建模方面。例如,一些研究基于该数据集提出了新的加权方案(如线性加权和对数加权),用于改进隐式矩阵分解(ALS)模型的性能。此外,该数据集还被用于探索用户听歌行为的周期性模式,以及如何将这些模式整合到推荐算法中。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

ClinicalTrials.gov

Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.

OPEN DATA NETWORK 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。

国家青藏高原科学数据中心 收录

CMIP6

CMIP6(第六次耦合模式比较计划)是一个全球气候变化模拟项目,旨在提供未来气候变化预测的科学基础。该数据集包含来自全球多个气候模型的模拟结果,涵盖了大气、海洋、陆地和冰冻圈等多个地球系统组成部分。数据内容包括温度、降水、海平面、碳循环等气候变量的历史记录和未来预测。

esgf-node.llnl.gov 收录