five

MerRec

收藏
arXiv2024-02-22 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2402.14230v1
下载链接
链接失效反馈
官方服务:
资源简介:
MerRec是一个专为消费者对消费者推荐系统设计的大型多用途数据集,源自Mercari电子商务平台,涵盖了2023年6个月内数百万用户和产品。该数据集不仅包含用户ID、商品ID和会话ID等标准特征,还包含时间戳动作类型、产品分类和文本产品属性等独特元素,为研究提供了一个全面的数据集。

MerRec is a large-scale multi-purpose dataset specifically designed for consumer-to-consumer (C2C) recommendation systems, sourced from the Mercari e-commerce platform, covering millions of users and products over a 6-month period in 2023. This dataset not only includes standard features such as user IDs, item IDs, and session IDs, but also incorporates unique elements like timestamped action types, product categories, and textual product attributes, providing a comprehensive dataset for academic research.
创建时间:
2024-02-22
搜集汇总
数据集介绍
main_image_url
构建方式
在电子商务推荐系统领域,尤其是消费者对消费者(C2C)模式中,数据集的构建需应对用户角色双重性及商品描述非标准化等独特挑战。MerRec数据集源自领先的C2C平台Mercari,其构建过程涵盖了2023年六个月内数百万用户与商品的交互记录。通过精心设计的数据采集流程,该数据集不仅包含用户标识、商品标识及会话标识等标准特征,还整合了带时间戳的动作类型、多层次商品分类体系以及文本形式的商品属性。为确保数据质量与隐私安全,研究团队实施了严格的清洗与处理步骤,包括过滤违规账户与商品、对长用户序列进行标准化分割、去除重复交互行为,并对所有标识字段进行匿名化处理,同时将时间戳统一转换为UTC格式。数据集按月份组织为Parquet文件,便于高效存储与分析,从而为C2C推荐研究提供了坚实的数据基础。
特点
MerRec数据集在C2C推荐研究领域展现出多项显著特点。其规模宏大,涵盖超过556万用户、8300万商品及12亿次交互事件,确保了数据的广泛代表性。该数据集独特地捕捉了C2C环境中用户同时扮演买家与卖家的双重角色,以及商品列表动态更新、缺乏标准库存单位(SKU)的复杂场景。特征维度丰富,除基础标识外,还提供了详细的商品分类(从粗粒度到细粒度的三级结构)、品牌、价格、状况、尺寸及颜色等多模态属性,并记录了包括浏览、点赞、加购、出价及交易在内的多种用户行为。这些要素共同构成了一个高度多样化且贴近真实市场环境的数据集合,为深入探究用户兴趣演化与商品动态表征提供了可能。
使用方法
MerRec数据集为推荐系统研究提供了多任务评估框架,主要支持三类核心任务。在点击率预测任务中,研究者可利用用户历史交互序列与商品元数据,训练模型预测用户对特定商品的点击概率,数据集中的时间戳与多样化动作类型为建模用户即时兴趣提供了上下文。对于会话推荐任务,该数据集支持基于序列的下一项预测,通过商品标识或合成特征构建用户会话,以评估模型在动态商品环境中的推荐性能。此外,数据集还适用于多任务学习场景,例如同时预测用户的浏览与点赞行为,以捕捉用户意图的多重维度。为便于使用,数据以按月份分区的Parquet格式提供,用户可通过聚合用户与序列标识并按时间排序来重构完整交互序列。数据集的丰富特征允许灵活的特征工程与模型适配,为开发适应C2C市场独特性的先进推荐算法奠定了坚实基础。
背景与挑战
背景概述
随着电子商务的蓬勃发展,推荐系统已成为提升用户体验与参与度的核心工具。然而,学术研究长期聚焦于企业对消费者模式,忽视了消费者对消费者平台的独特需求。MerRec数据集由Mercari公司及多所高校的研究团队于2024年联合发布,旨在填补这一空白。作为首个专为C2C推荐系统设计的大规模数据集,MerRec源自Mercari平台2023年六个月的交易数据,涵盖数百万用户与商品,不仅包含用户、商品及会话标识等标准特征,还整合了时间戳行为类型、产品分类体系及文本属性等丰富信息。该数据集的推出为C2C推荐算法的研发提供了关键基准,有效弥合了学术界与工业界之间的鸿沟,推动了该领域的前沿探索。
当前挑战
MerRec数据集致力于解决C2C推荐系统中的核心挑战,其首要难题在于应对用户兼具买卖双重角色所引发的行为复杂性,以及商品描述缺乏标准化导致的特征稀疏性。传统推荐模型依赖静态商品标识,难以适应C2C平台中商品列表动态更新、单品唯一售出的特性,这要求算法具备更强的泛化与实时适应能力。在数据集构建过程中,研究团队面临非专业卖家提供的商品信息质量参差不齐、关键属性缺失或标注不一致等困难。此外,为保护用户隐私,需对数据进行匿名化处理,同时保持行为序列的完整性;还需设计替代传统库存单位的标识方案,以捕捉商品间的语义关联,这些挑战共同塑造了数据集的独特价值与应用边界。
常用场景
经典使用场景
在电子商务推荐系统研究领域,MerRec数据集为消费者对消费者(C2C)模式的算法开发提供了关键基准。该数据集最经典的使用场景在于训练和评估下一代会话式推荐系统。通过捕捉用户在Mercari平台上的浏览、点击、收藏及购买等时序行为序列,研究人员能够深入分析动态市场环境下用户兴趣的演变规律。其大规模、多模态的特性尤其适合探索基于Transformer架构的序列建模方法,为预测用户下一交互物品提供了丰富的实验土壤。
解决学术问题
MerRec数据集有效解决了C2C推荐研究中长期存在的数据稀缺与特征异构问题。传统B2C数据集难以刻画用户兼具买卖双重角色带来的行为复杂性,而MerRec通过包含时间戳动作类型、产品分类体系和文本属性等多元特征,为研究非标准商品标识下的推荐算法提供了新范式。该数据集使学术界能够系统探究动态商品列表、非结构化商品描述等现实挑战,推动了跨域推荐、冷启动问题及多任务学习等前沿方向的发展。
衍生相关工作
围绕MerRec数据集已衍生出多个创新性研究分支。原论文提出的Mercatran模型开创了基于内容特征的三塔Transformer架构,为动态C2C场景下的序列推荐设立了新范式。后续研究扩展了多任务学习框架,在点击率预测与收藏行为预测任务上实现了协同优化。该数据集还催生了针对非SKU商品识别的表征学习研究,以及结合图神经网络建模用户-商品异构关系的探索工作,持续推动着C2C推荐系统的算法前沿。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作