amazon_dataset

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/ambiernat/amazon_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含评分、标题、文本、图片信息、asin编号、父asin编号、用户ID、时间戳、有帮助的投票数、是否为验证购买和分类等字段。数据集主要包含训练集，其中有99998个示例，大小为36845986字节。

创建时间：

2025-11-24

原始信息汇总

数据集概述

基本信息

数据集名称: amazon_dataset
存储位置: https://huggingface.co/datasets/ambiernat/amazon_dataset
数据量: 99,998条样本
数据格式: 结构化数据

数据特征

评分 (rating): 浮点数值
标题 (title): 字符串类型
评论文本 (text): 字符串类型
图片信息 (images): 列表结构，包含：
- 附件类型 (attachment_type)
- 大图URL (large_image_url)
- 中图URL (medium_image_url)
- 小图URL (small_image_url)
商品ASIN (asin): 字符串类型
父级ASIN (parent_asin): 字符串类型
用户ID (user_id): 字符串类型
时间戳 (timestamp): 整型数值
有用投票数 (helpful_vote): 整型数值
验证购买 (verified_purchase): 布尔类型
商品类别 (category): 字符串类型

技术规格

数据分割: 仅包含训练集 (train)
训练集大小: 36,845,986字节
下载大小: 21,368,412字节
数据集总大小: 36,845,986字节

搜集汇总

数据集介绍

构建方式

在电子商务研究领域，Amazon_dataset的构建依托于亚马逊平台真实用户交互数据，通过系统化采集商品评论信息完成。该数据集整合了评分、文本内容、图像资源及用户行为等多维度数据，采用自动化流程从公开渠道提取并结构化存储，确保数据来源的可靠性与时效性。每条记录包含用户评分、评论标题、详细描述、商品图片链接及元数据（如ASIN编码、用户ID、时间戳等），通过标准化处理形成统一的训练集分割。

特点

该数据集显著特点在于其多模态数据融合架构，同时涵盖数值型评分、文本评论和视觉图像资源。特征字段设计精细，包括帮助性投票、验证购买标识和商品分类标签，支持对用户行为与商品属性的交叉分析。数据规模庞大，涵盖近十万条训练样本，每条记录均附带时间序列信息和跨尺度图像链接，为研究商品感知与用户反馈的关联机制提供了丰富素材。

使用方法

研究者可通过加载标准数据分割文件直接访问训练集，利用评分与文本字段进行情感分析或推荐系统建模。多图像链接支持视觉特征提取，结合分类标签可实现跨模态学习任务。时间戳与用户ID支持时序行为分析，而验证购买标识则有助于构建去偏模型。该数据集适用于自然语言处理、计算机视觉及电子商务领域的联合研究，可通过特征组合开发多任务学习框架。

背景与挑战

背景概述

亚马逊评论数据集作为电子商务研究领域的重要资源，由亚马逊公司于2014年首次发布并持续更新。该数据集汇集了全球用户对各类商品的真实评价，其核心价值在于通过多维度的用户反馈数据——包括评分、文字评论、商品图像及购买行为等特征——为推荐系统、情感分析和跨模态学习提供研究基础。斯坦福大学与亚马逊研究院等机构利用该数据集推动了消费者行为建模、商品质量评估等关键问题的研究，对电子商务人工智能技术的发展产生了深远影响。

当前挑战

该数据集致力于解决电子商务场景下的多模态推荐与虚假评论检测等复杂任务，其核心挑战在于如何有效融合异构的文本、图像和元数据信息以实现精准的用户偏好建模。在构建过程中面临数据稀疏性与长尾分布问题，部分冷门商品缺乏足够评论数据；同时需处理多语言评论的语义差异以及用户隐私保护要求，这些因素均对数据质量与模型泛化能力构成显著挑战。

常用场景

经典使用场景

在电子商务与自然语言处理领域，Amazon数据集凭借其丰富的用户评论和产品元数据，常被用于构建推荐系统与情感分析模型。研究者通过整合评分、文本内容和用户行为数据，能够训练深度学习算法来预测用户偏好，优化个性化商品推荐，这一场景已成为评估协同过滤与内容过滤方法性能的标准基准。

解决学术问题

该数据集有效解决了信息过载环境下用户决策支持的关键问题，为学术研究提供了验证观点挖掘、评级预测及虚假评论检测等任务的可靠语料。其多模态特征（如文本与图像结合）推动了跨模态学习的发展，显著提升了模型在真实世界场景中的泛化能力与解释性，对计算语言学与人工智能交叉研究具有深远意义。

衍生相关工作

基于该数据集衍生的经典研究包括基于注意力机制的神经推荐模型、多任务情感分类框架，以及结合图神经网络的社会化推荐算法。这些工作不仅拓展了异构数据融合的理论边界，还催生了如Transformer在序列建模中的创新应用，为后续跨领域数据挖掘研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集