Amazon-M2
收藏arXiv2023-10-19 更新2024-06-21 收录
下载链接:
https://www.aicrowd.com/challenges/amazon-kdd-cup-23-multilingual-recommendation-challenge/problems/task-1next-product-recommendation/dataset_files
下载链接
链接失效反馈官方服务:
资源简介:
Amazon-M2是由亚马逊公司推出的首个多语言多地区购物会话数据集,包含来自六个不同地区的数百万用户会话,主要语言包括英语、德语、日语、法语、意大利语和西班牙语。该数据集通过收集真实用户会话数据构建,每个样本包含用户按时间顺序交互的产品列表,并提供包含产品标题、品牌、颜色等属性的产品属性表。Amazon-M2旨在通过丰富的语义属性和大规模数据,增强个性化推荐和用户偏好理解,适用于多种现有任务和新任务,如产品推荐和标题生成。
Amazon-M2 is the first multilingual and multi-regional shopping conversation dataset launched by Amazon. It houses millions of user conversation sessions across six distinct regions, with major languages including English, German, Japanese, French, Italian and Spanish. This dataset is constructed by collecting real-world user conversation data. Each sample contains a chronological list of products that users have interacted with, alongside a product attribute table detailing attributes such as product title, brand, color and other relevant product features. Amazon-M2 aims to enhance personalized recommendation and user preference understanding through its rich semantic attributes and large-scale dataset, and is applicable to a variety of existing and emerging tasks such as product recommendation and title generation.
提供机构:
亚马逊公司
创建时间:
2023-07-19
搜集汇总
数据集介绍

构建方式
在电子商务推荐系统领域,Amazon-M2数据集通过整合来自六个不同区域(英国、德国、日本、西班牙、法国、意大利)的真实匿名用户会话数据构建而成。其构建过程严格遵循时序逻辑,每个会话均以时间顺序记录用户在30分钟活跃窗口内交互的产品序列,并以产品ASIN编号进行标识。数据集进一步提供了包含产品标题、品牌、价格、描述等丰富语义属性的产品属性表,这些属性以多语言形式呈现,涵盖英语、德语、日语、法语、意大利语和西班牙语。数据采集周期跨越三周,前两周用于训练,后一周划分为测试集,确保了数据的时间连续性与评估的严谨性。
特点
Amazon-M2数据集展现出多维度显著特征。其规模宏大,涵盖超过360万用户会话和140万独特产品,远超现有会话数据集。数据集具有鲜明的多区域与多语言属性,覆盖六大区域及六种主要语言,为用户行为多样性研究提供了坚实基础。尤为突出的是,数据集首次在会话推荐中引入了丰富的文本属性,如产品标题与描述,为语义理解与语言模型的应用开辟了新路径。此外,数据呈现典型的长尾分布与重复交互模式,真实反映了电子商务环境中的用户行为复杂性,为偏差分析与算法鲁棒性评估提供了宝贵资源。
使用方法
该数据集支持多种前沿研究任务。在经典的下一个产品推荐任务中,研究者可利用会话序列预测用户即将交互的产品ID。针对领域迁移场景,数据集支持预训练-微调范式,允许模型在数据丰富的大区域(如英、德、日)预训练后,迁移至数据稀缺的小区域(如西、法、意)进行推荐,以探索跨语言跨区域的知识迁移能力。创新的下一个产品标题生成任务则要求模型根据会话历史生成未见过的产品的文本标题,这对融合推荐系统与自然语言生成技术提出了挑战。数据集的丰富属性也使其适用于图神经网络、冷启动问题、数据补全及跨语言实体对齐等广泛研究方向。
背景与挑战
背景概述
在电子商务领域,精准建模用户购物意图是提升用户体验与参与度的核心任务。亚马逊于2023年推出的Amazon-M2数据集,作为首个多语言多区域购物会话数据集,由亚马逊公司与多所高校研究团队联合构建,旨在解决传统会话数据在商品属性、用户多样性与规模上的局限。该数据集涵盖来自英国、德国、日本等六个区域的数百万用户会话,商品语言包括英语、德语、日语等六种,通过丰富的语义属性和大规模跨区域数据,为会话推荐与文本生成研究提供了前所未有的资源。其影响力不仅体现在推动个性化推荐算法的进步,还为跨语言迁移学习与大语言模型应用开辟了新的探索方向。
当前挑战
Amazon-M2数据集面临的挑战主要体现在两大维度。在领域问题层面,会话推荐任务需应对长尾分布现象,即少数热门商品占据主导,而大量商品交互稀疏,导致模型难以有效推荐冷门商品;同时,跨区域域转移问题要求算法在数据分布差异下实现知识迁移,例如从数据丰富的区域向数据稀缺区域传递用户偏好。在构建过程中,数据采集需处理多语言文本的语义对齐与结构差异,如商品标题在不同语言中的形态学与分词差异;此外,大规模会话数据的隐私匿名化与质量清洗亦构成显著挑战,需在保护用户隐私的同时确保数据的完整性与代表性。
常用场景
经典使用场景
在电子商务推荐系统领域,Amazon-M2数据集为会话推荐研究提供了前所未有的多语言、多区域场景。其核心应用聚焦于基于会话的下一个商品推荐,通过分析用户在单一会话中按时间顺序交互的商品序列,精准预测用户的即时购物意图。该数据集凭借其丰富的商品语义属性和跨区域特性,使得模型能够深入理解用户在不同语言和文化背景下的短期兴趣,为构建更精准、个性化的推荐系统奠定了坚实基础。
解决学术问题
Amazon-M2数据集有效应对了会话推荐研究中长期存在的若干挑战。它通过提供涵盖六种语言、数百万会话的大规模数据,缓解了传统数据集在商品属性、用户多样性和规模上的局限。该数据集特别支持对长尾分布、跨区域知识迁移以及多语言语义建模等复杂问题的探索。其引入的跨域推荐和商品标题生成等新型任务,推动了推荐系统与自然语言处理、迁移学习等领域的交叉融合,为学术研究开辟了新的方向。
衍生相关工作
围绕Amazon-M2数据集,已衍生出一系列重要的研究方向与基准工作。在KDD CUP 2023竞赛中,该数据集作为核心评测平台,催生了众多针对下一个商品推荐及跨域迁移的先进解决方案。研究社区基于其多语言文本特性,积极探索大型语言模型与推荐系统的结合,例如利用mT5等模型进行商品标题生成。同时,该数据集也促进了图神经网络在会话推荐中的新应用,以及针对跨语言实体对齐、数据补全等更广泛机器学习问题的研究。
以上内容由遇见数据集搜集并总结生成



