reczoo/AmazonElectronics_m1
收藏Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/AmazonElectronics_m1
下载链接
链接失效反馈官方服务:
资源简介:
# AmazonElectronics_m1
+ **Data format:**
Each user corresponds to a list of interacted items: [[item1, item2], [item3, item4, item5], ...]
+ **Source:** https://cseweb.ucsd.edu/~jmcauley/datasets.html
+ **Download:** https://huggingface.co/datasets/reczoo/AmazonElectronics_m1/tree/main
+ **RecZoo Datasets:** https://github.com/reczoo/Datasets
+ **Used by papers:**
- Wenhui Yu, Zheng Qin. [Sampler Design for Implicit Feedback Data by Noisy-label Robust Learning](https://arxiv.org/abs/2007.07204). In SIGIR 2020.
- Kelong Mao, Jieming Zhu, Xi Xiao, Biao Lu, Zhaowei Wang, Xiuqiang He. [UltraGCN: Ultra Simplification of Graph Convolutional Networks for Recommendation](https://arxiv.org/abs/2110.15114). In CIKM 2021.
+ **Check the md5sum for data integrity:**
```bash
$ md5sum *.json
7a0fa5d0da5dc5d5008da02b554ef688 test_data.json
ca71f3f5b9ada393ffd5490eba84c7db train_data.json
7f2db9b5b0de91c7d757ed6ed6095a5a validation_data.json
```
# 亚马逊电子产品数据集(AmazonElectronics_m1)
+ **数据格式:** 每个用户对应一组其交互过的物品列表,格式示例为:[[物品1, 物品2], [物品3, 物品4, 物品5], ...]
+ **数据来源:** https://cseweb.ucsd.edu/~jmcauley/datasets.html
+ **数据下载:** https://huggingface.co/datasets/reczoo/AmazonElectronics_m1/tree/main
+ **RecZoo数据集仓库:** https://github.com/reczoo/Datasets
+ **已被以下论文使用:**
- 于文辉, 秦正. [基于噪声标签鲁棒学习的隐式反馈数据采样器设计](https://arxiv.org/abs/2007.07204). 发表于 SIGIR 2020.
- 毛克龙, 朱杰明, 肖曦, 卢彪, 王昭伟, 何秀强. [UltraGCN:用于推荐的图卷积网络极致简化](https://arxiv.org/abs/2110.15114). 发表于 CIKM 2021.
+ **数据完整性MD5校验:**
bash
$ md5sum *.json
7a0fa5d0da5dc5d5008da02b554ef688 test_data.json
ca71f3f5b9ada393ffd5490eba84c7db train_data.json
7f2db9b5b0de91c7d757ed6ed6095a5a validation_data.json
提供机构:
reczoo
原始信息汇总
AmazonElectronics_m1
数据格式
每个用户对应一个交互项目的列表:[[item1, item2], [item3, item4, item5], ...]
使用情况
该数据集已被以下论文使用:
- Wenhui Yu, Zheng Qin. Sampler Design for Implicit Feedback Data by Noisy-label Robust Learning. 在 SIGIR 2020.
- Kelong Mao, Jieming Zhu, Xi Xiao, Biao Lu, Zhaowei Wang, Xiuqiang He. UltraGCN: Ultra Simplification of Graph Convolutional Networks for Recommendation. 在 CIKM 2021.
数据完整性校验
可以使用以下命令检查数据的MD5校验和: bash $ md5sum *.json 7a0fa5d0da5dc5d5008da02b554ef688 test_data.json ca71f3f5b9ada393ffd5490eba84c7db train_data.json 7f2db9b5b0de91c7d757ed6ed6095a5a validation_data.json
搜集汇总
数据集介绍

构建方式
在电子商务推荐系统研究领域,AmazonElectronics_m1数据集源自亚马逊平台电子产品的用户交互记录。其构建过程严谨地遵循了隐式反馈数据的处理范式,原始数据经过清洗与转换,最终形成以用户为中心的序列结构。每个用户对应一个交互物品列表,列表内物品按交互顺序排列,这种格式直接反映了用户的历史行为序列,为序列化推荐模型提供了基础。数据集的划分涵盖了训练集、验证集与测试集,确保了模型评估的可靠性与可复现性。
使用方法
使用本数据集时,研究者可直接加载提供的JSON文件,其中train_data.json、validation_data.json和test_data.json分别用于模型训练、超参数调优与最终性能测试。数据以用户-物品交互列表形式组织,适合输入序列推荐模型或图卷积网络进行特征学习。为确保数据完整性,建议在下载后通过md5sum校验文件哈希值。典型应用包括训练如UltraGCN等先进推荐算法,以探索隐式反馈下的用户偏好建模与物品排序优化。
背景与挑战
背景概述
在推荐系统领域,隐式反馈数据的利用一直是提升个性化推荐性能的关键研究方向。AmazonElectronics_m1数据集由加州大学圣地亚哥分校的研究团队于2020年前后构建,作为RecZoo项目的重要组成部分,该数据集专注于电子产品的用户交互行为,以列表形式记录每位用户的历史交互物品序列。其核心研究问题在于如何从隐式反馈中有效挖掘用户偏好,以优化推荐算法的准确性与鲁棒性。该数据集通过提供大规模的真实交互记录,为隐式反馈建模、采样策略设计及图神经网络简化等前沿研究提供了重要基准,显著推动了推荐系统在稀疏数据环境下的算法创新。
当前挑战
AmazonElectronics_m1数据集所针对的领域挑战主要集中于隐式反馈推荐中的噪声标签问题与数据稀疏性。隐式反馈缺乏明确的用户偏好信号,导致传统方法难以区分真实兴趣与偶然交互,从而影响模型训练的稳定性与泛化能力。在构建过程中,挑战源于原始数据的异构性与规模性,需要高效的数据清洗与序列化处理,以确保交互列表的完整性与一致性。同时,数据划分需平衡用户行为的时间动态与分布偏差,这对验证推荐模型的鲁棒性提出了更高要求。
常用场景
经典使用场景
在推荐系统领域,AmazonElectronics_m1数据集作为隐式反馈数据的典型代表,其经典使用场景聚焦于用户与电子产品的交互行为建模。该数据集以用户交互物品序列的形式呈现,为研究者提供了丰富的用户偏好信息,常用于训练和评估基于协同过滤或图神经网络的推荐算法。通过分析用户历史交互记录,模型能够学习潜在的用户兴趣模式,进而预测未来可能感兴趣的电子产品,为个性化推荐系统的开发奠定数据基础。
解决学术问题
该数据集有效解决了推荐系统中因隐式反馈数据稀疏性和噪声标签带来的学术挑战。隐式反馈数据通常缺乏明确的用户评分,仅通过点击、购买等行为间接反映偏好,使得传统推荐模型难以准确捕捉用户意图。AmazonElectronics_m1通过提供大规模的真实用户交互序列,支持了噪声鲁棒学习、图结构简化等前沿方法的研究,推动了推荐算法在数据质量不佳条件下的性能提升,对解决实际推荐场景中的数据不确定性具有重要意义。
实际应用
在实际应用层面,AmazonElectronics_m1数据集直接服务于电子商务平台的个性化推荐引擎优化。基于该数据集训练的模型能够为在线零售商提供精准的产品推荐,例如在亚马逊等平台上为用户智能推送电子产品,从而提升用户购物体验和平台转化率。此外,该数据集还可用于A/B测试和推荐策略评估,帮助企业在真实业务场景中验证算法效果,实现数据驱动的商业决策,促进智能零售系统的可持续发展。
数据集最近研究
最新研究方向
在推荐系统领域,AmazonElectronics_m1数据集作为隐式反馈数据的典型代表,为前沿研究提供了关键支撑。当前研究聚焦于隐式反馈的噪声标签鲁棒学习,通过设计高效采样器以应对数据稀疏性和噪声干扰,提升模型泛化能力。同时,图卷积网络的超简化成为热点,旨在降低计算复杂度并保持推荐性能,推动轻量级模型在实际场景中的应用。这些方向不仅深化了对用户行为模式的理解,也促进了推荐技术向高效、可扩展方向发展,对电子商务个性化服务具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



