five

Zvuk, SMM

收藏
arXiv2024-02-15 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2402.09766v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究引入了两个新的数据集Zvuk和SMM,分别针对音乐和电子商务领域。Zvuk记录了用户在五个月内的音乐播放行为,包括播放次数和播放时长,涉及382,790名用户和1,506,950首歌曲。SMM则记录了电子商务平台的用户行为,如浏览、收藏、加入购物车和购买,涵盖2,730,776名用户和3,562,321种商品。这两个数据集的引入旨在丰富推荐系统研究的多样性,并提供更贴近实际应用场景的数据支持。

This study introduces two novel datasets, Zvuk and SMM, tailored for the music and e-commerce domains respectively. Zvuk captures the music playback behaviors of users over a five-month period, including play counts and playback durations, involving 382,790 users and 1,506,950 songs. SMM documents user behaviors on e-commerce platforms, such as browsing, favoriting, adding to cart, and purchasing, covering 2,730,776 users and 3,562,321 products. The introduction of these two datasets aims to enrich the diversity of recommender system research and provide data support that is more aligned with real-world application scenarios.
提供机构:
斯科尔科沃科学技术研究院
创建时间:
2024-02-15
搜集汇总
数据集介绍
main_image_url
构建方式
在推荐系统领域,数据集的特征对算法性能有着深远影响。Zvuk与SMM数据集源自真实世界的音乐流媒体与电子商务平台,由研究者于2023年1月至5月期间采集。Zvuk记录了382,790名用户对1,506,950首曲目的2.44亿次播放事件,涵盖用户与曲目ID、会话标识及播放时长;SMM则包含2,730,776名用户对3,562,321件商品的1.96亿次交互事件,包括浏览、收藏、加购及购买,并附有类别与价格信息。两者均采用隐式反馈形式,并通过阈值二值化与5-filter预处理,剔除低频用户与物品,确保数据质量与稀疏性可控。
特点
这两大数据集的核心特点在于其规模与领域稀缺性。Zvuk聚焦音乐领域,弥补了现有基准中音乐数据不足的短板;SMM则覆盖电子商务场景,提供了大规模、多事件类型的用户行为序列。两者均包含时间戳,支持时序化评估,且事件类型丰富(如SMM的四种行为),可深入分析用户决策路径。此外,数据集在用户活跃度、物品流行度等特征上呈现高度异质性,有助于检验算法在不同数据分布下的鲁棒性,为跨领域性能对比提供了坚实基石。
使用方法
在应用层面,数据集需遵循严格的离线评估协议。用户交互被转化为隐式反馈,并按全局时间顺序以80/10/10比例划分为训练、验证与测试集,避免数据泄漏。评估时,对所有未观测物品进行全量评分,计算Precision、Recall、nDCG等精度指标及Coverage、Diversity等多样性指标。研究者可基于这些数据,使用Optuna框架对推荐模型(如EASE、LightGCN)进行超参数优化,并以nDCG@10为目标,通过多数据集聚合(如均值排名、Dolan-Moré曲线)获得稳健的算法排名。
背景与挑战
背景概述
在推荐系统(RecSys)领域,算法性能的评估长期受限于数据集选择的任意性与单一性,导致结论的碎片化与不可复现性。为应对这一困境,来自斯科尔科沃科技学院(Skoltech)与俄罗斯联邦储蓄银行人工智能实验室(Sber AI Lab)的Valeriy Shevchenko、Nikita Belousov等研究者,于2024年在KDD '24上提出了名为Zvuk与SMM的两个大规模开源数据集。Zvuk专注于音乐流媒体领域,记录了近2.45亿次用户听歌事件,涵盖超过150万首曲目与38万用户;SMM则聚焦电子商务,囊括1.97亿次用户行为事件,涉及356万商品与273万用户。这两个数据集的引入,旨在填补推荐系统在音乐与电商领域的数据稀缺性,为多数据集、多指标的稳健基准评测提供基石,从而推动推荐算法从片面比较走向系统性、可泛化的评估范式。
当前挑战
当前推荐系统评测面临的核心挑战在于算法性能对数据集特性的高度敏感性:同一算法在不同稀疏度、流行度偏差、长尾分布等特征的数据集上表现迥异,导致单一数据集上的结论难以泛化。Zvuk与SMM的构建过程亦充满技术难题:前者需处理海量隐式反馈中的会话分割与播放时长阈值设定,后者则需应对多类型事件(浏览、收藏、加购、购买)的权重聚合与二值化转换,以避免信息损失与偏差引入。此外,跨数据集的公平比较缺乏统一的聚合方法——均值聚合易受极端值干扰,而Dolan-Moré曲线与投票排序法虽各有优势,但在小样本或对抗性扰动下稳定性不足。如何从30个数据集中筛选出最具代表性的子集以平衡计算效率与评测鲁棒性,亦是本研究亟需突破的瓶颈。
常用场景
经典使用场景
在推荐系统研究的浩瀚疆域中,Zvuk与SMM数据集作为两颗新星,分别闪耀于音乐与电子商务两大领域。它们被精心设计以服务于协同过滤算法的全面评估与对比。其经典使用场景在于,研究者可借助这些大规模、富含时间戳的用户-物品交互数据,严格遵循全局时间分割策略,模拟真实在线推荐环境,从而对诸如EASE、LightGCN、MultiVAE等前沿模型进行公正、可复现的性能基准测试。这些数据集尤其擅长揭示不同算法在隐式反馈场景下的排序质量与泛化能力,成为衡量推荐系统稳健性的基石。
实际应用
在产业界的真实部署中,推荐算法需在特定领域内展现出卓越的适应性与高效性。Zvuk数据集精准刻画了音乐流媒体平台中海量用户的长音频消费行为,而SMM则完整记录了电子商务场景下从浏览到购买的完整转化链路。这些数据集为工业界提供了宝贵的离线测试沙盘,使得企业能够在投入生产前,基于与自身业务高度相似的数据特征(如长尾分布、流行度偏差)进行算法选型与优化。例如,借助聚类分析,企业可从30个数据集中遴选出与自身领域特征紧密匹配的6个核心数据集,实现高效且可靠的离线评估,从而显著缩短推荐模型从研发到上线的周期。
衍生相关工作
Zvuk与SMM数据集的诞生,不仅作为基准测试的基石,更催生了一系列富有洞见的衍生工作。该研究本身即构建了一个包含30个数据集、11种算法与9项指标的综合性评估框架,并深入比较了多种指标聚合方法的稳健性,为后续研究提供了方法论范本。此外,基于数据特征聚类的分析揭示了不同领域内算法性能的差异,例如EASE在多数集群中表现卓越,而LightGCL在特定集群中独占鳌头。这些发现激励了研究者探索面向特定数据特性的定制化推荐模型,并推动了关于数据特征与算法性能之间内在联系的更深入探究,从而引领推荐系统评估向着更精细、更智能的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作