five

items_raw_full

收藏
Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/iloveawscn/items_raw_full
下载链接
链接失效反馈
官方服务:
资源简介:
items_raw_full是一个基于2023年亚马逊评论数据构建的商品项目数据集,专门用于价格预测任务。该数据集包含商品项目信息,来源于亚马逊平台的用户评论数据。数据集总共有82万条样本,划分为训练集、验证集和测试集三部分,其中训练集包含80万条样本,验证集和测试集各包含1万条样本。数据以parquet文件格式存储,适用于机器学习模型在商品价格预测领域的训练和评估。
创建时间:
2026-05-11
原始信息汇总

数据集概述:items_raw_full

数据集名称:items_raw_full
来源地址:https://huggingface.co/datasets/iloveawscn/items_raw_full
数据来源:Amazon Reviews 2023 商品数据
用途:用于商品价格预测任务

数据划分

数据集包含三个划分部分:

划分名称 样本数量
训练集(train) 800,000
验证集(validation) 10,000
测试集(test) 10,000

数据文件

所有数据以 Parquet 格式存储,文件路径如下:

  • 训练集:data/train-*.parquet
  • 验证集:data/validation-*.parquet
  • 测试集:data/test-*.parquet
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Amazon Reviews 2023,聚焦于商品价格预测任务。构建方式基于Amazon平台海量商品元数据,通过系统化采集商品信息形成原始样本库。数据集被划分为三个子集:训练集包含800,000条样本,验证集与测试集各含10,000条样本,采用Parquet列式存储格式以优化数据读写效率。样本涵盖商品名称、类别、价格等关键属性,原始数据未经人工筛选或增强,以保持真实场景的分布特性。
使用方法
使用者可通过HuggingFace Datasets库便捷加载,指定split参数获取对应子集。数据适用于监督学习中的回归任务,以商品元数据特征预测价格。建议在预处理阶段对文本字段进行分词与嵌入,对数值字段进行归一化处理。由于数据集未包含明确的价格列名,需根据README指示自行定位目标变量。训练过程可参考传统时间序列或图神经网络方法,但需注意不同商品类别的价格分布差异可能影响模型泛化性。
背景与挑战
背景概述
items_raw_full数据集由Amazon Reviews 2023项目团队创建,发布于2023年,聚焦于电商商品价格预测这一核心研究问题。该数据集汇集了约82万条商品记录,涵盖训练、验证与测试三部分,为价格预测模型提供了大规模、真实世界的电商数据资源。其发布标志着商品定价研究从依赖小规模、人工标注数据转向利用海量、动态的在线商品信息,推动了电子商务智能定价与市场分析领域的发展。该数据集的公开,为研究人员深入挖掘商品属性与价格间的复杂关系奠定了坚实基础。
当前挑战
该数据集面临的核心挑战包括:首先,电商商品价格预测的领域问题具有高度复杂性,商品价格受品牌、季节性、促销活动及用户评价等多维因素动态影响,传统回归模型难以捕捉其非线性变化规律,亟需设计更强大的深度学习架构。其次,数据集构建过程中,从亚马逊平台采集的海量商品信息存在缺失值、异常价格及不统一的数据格式,清洗与标准化工作耗时且需领域知识介入,确保数据质量成为一大掣肘。此外,数据集的时效性要求定期更新以反映市场变化,但持续维护和标注新数据面临成本高、效率低等现实困难。
常用场景
经典使用场景
该数据集源自Amazon Reviews 2023中商品的价格预测任务,承载了丰富且细致的商品特征信息。在电商数据挖掘领域,它常被用于训练回归模型,以预测商品价格,其庞大的训练样本(80万条)为模型提供了坚实的统计基础。研究者可基于此数据集探索商品属性如描述、类别、品牌等与价格之间的非线性关系,构建精准的定价模型。
解决学术问题
在学术研究中,该数据集主要解决了电商场景下的价格预测难题,尤其是在处理高维稀疏特征和商品异质性时提供了标准化基准。它推动了特征工程、表示学习以及多模态融合方法的发展,为理解价格形成机制和市场竞争态势提供了数据支撑,其意义在于构建了可复现的研究框架,避免了单一数据源的偏差影响。
实际应用
实际应用层面,该数据集可直接服务于电商平台自动定价系统的开发,帮助商家动态调整商品价格以优化利润。同时,它可用于构建价格异常检测工具,实时监控市场波动,为消费者提供价格趋势分析和比价服务。此外,数据集还能辅助库存管理决策,通过价格预测模型预估商品生命周期和价值变化。
数据集最近研究
最新研究方向
基于Amazon Reviews 2023数据集的高维商品属性与动态定价机制的交叉研究正成为电商智能领域的前沿热点。该数据集包含80万训练样本及均衡的验证测试集,为构建细粒度价格预测模型提供了稀缺的多模态商品表征基础。当前学界聚焦于利用其原始商品描述文本、元数据与评论信号的异构特征,探索对比学习与图神经网络在商品价值挖掘中的应用,尤其在长尾商品的定价偏差校正与促销策略优化中展现出革命性潜力,推动了从静态估值到市场响应预测的范式跃迁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作