rotemknat/israeli_supermarkets_pricing
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/rotemknat/israeli_supermarkets_pricing
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Israeli Supermarkets 2024,源自Kaggle平台,最初包含超过1000万行数据,经过筛选和清洗后,保留了约39,000行高质量样本。数据集核心特征包括商品编码(itemcode)、制造商(manufacturer)、计量单位(unitofmeasure)以及时间数据等。项目目标是通过机器学习技术预测商品价格(itemprice,回归任务)并将商品分类为低、中、高价格等级(分类任务)。
The dataset, named Israeli Supermarkets 2024, was sourced from Kaggle and initially comprised over 10 million rows. After careful selection and cleaning, a high-quality sample of approximately 39,000 rows was retained. Core features of the dataset include itemcode, manufacturer, unitofmeasure, and temporal data. The projects objectives were to predict item prices (itemprice, regression task) and categorize items into Low, Medium, and High price tiers (classification task) using machine learning techniques.
提供机构:
rotemknat
搜集汇总
数据集介绍

构建方式
该数据集源自2024年以色列超市公开数据,原始规模超过1000万行。经过严格筛选与清洗,最终保留约39,000行高质量样本。在数据预处理阶段,剔除了缺失率超过90%的列与万余条重复记录,利用四分位距法(IQR)消除极端价格异常,并移除数量为零或为负的不合理数据点。此外,将目标变量‘itemprice’的上限设定为第99百分位数,以稳定模型训练。为增强特征表达,研究者从时间维度提取星期、月份等特征,对高基数列(如商品名称与制造商)采用频率编码,并通过K-Means聚类生成蕴含数据内在结构的聚类标签,作为新特征引入预测模型。
特点
该数据集的核心特色在于其完备的机器学习实验设计。它不仅服务于价格回归任务以预测精确数值,还基于分位数划分出‘低’、‘中’、‘高’三个价格层级,支持多分类任务。通过对比线性回归、随机森林与梯度提升等多种模型,研究者发现随机森林在回归任务中表现最优,具有最高的R²分数与最低的误差指标;在分类场景中,梯度提升分类器则在精度、召回率与F1分数上展现卓越性能。数据集还强调特征工程的重要性,聚类特征带来的性能提升往往超越单纯的参数调优,体现了数据上下文对于零售价格预测的深远影响。
使用方法
使用者可通过HuggingFace平台直接获取该数据集及对应的预训练模型。数据集中已包含可直接用于训练的整理后数据,以及从Kaggle获取的原始数据源。使用者可以下载随机森林回归模型(.pkl文件)用于价格数值预测,或下载梯度提升分类模型用于价格层级划分。加载代码简洁,使用joblib库即可快速调用:regressor = joblib.load('random_forest_regressor_model.pkl'),classifier = joblib.load('gradient_boosting_classifier_model.pkl')。此外,项目中还提供了完整的视频演示与探索性数据分析图表,便于使用者理解从数据清洗到模型选型的完整技术流程。
背景与挑战
背景概述
以色列超市定价数据集(israeli_supermarkets_pricing)由研究人员Rotem Knat于2024年创建,基于Kaggle平台公开的以色列超市交易记录,其核心研究问题聚焦于零售商品价格的精准预测与分层归类。该数据集原始规模超过1000万行,涵盖商品代码、制造商、计量单位及时间等多元特征,经过精心筛选与清洗后保留约3.9万条高质量样本,成为探索零售价格动态、消费者行为模式及市场竞争策略的重要基石。通过集成学习与无监督聚类技术的融合,该数据集推动了端到端机器学习在定价分析领域的应用,为零售商优化定价策略、提升利润空间提供了数据驱动的决策支持,在消费经济学与商业智能交叉研究中具有显著影响力。
当前挑战
该数据集面临的核心挑战在于解决零售价格预测领域的高度非线性与波动性问题。商品价格受促销活动、季节性需求、市场竞争等多重因素交织影响,传统统计方法难以捕捉复杂模式,而海量原始数据中的缺失值、重复项及极端异常值更增加了建模难度。构建过程中,研究团队需处理超过90%列缺失的噪声数据、剔除10万以上重复记录,并采用四分位距法(IQR)与99百分位数截断策略抵御价格异常扰动。此外,高基数类别特征(如商品名称、制造商)的编码难题,以及如何从非结构化时间信息中提取有效周期规律,均对特征工程提出了严苛要求。
常用场景
经典使用场景
以色列超市定价数据集(israeli_supermarkets_pricing)汇聚了超过千万条零售交易记录,经精心筛选与清洗后形成约三万九千条高质量样本。该数据集的核心使命在于支撑商品价格预测与价格层级划分两大经典任务:一方面通过回归模型精确估算单品价格,另一方面借助分类模型将商品划分为低、中、高三个价格档次。数据特征涵盖商品编码、制造商、计量单位以及时间信息,为构建端到端的机器学习管线提供了丰富素材。研究者可基于此数据集开展特征工程实践,例如利用频次编码处理高基数类别变量,或运用K-Means聚类挖掘数据隐含结构,从而探索价格形成的潜在规律。该数据集已成为零售领域价格建模与机器学习流程整合的典范范例。
解决学术问题
该数据集系统性地回应了零售定价研究中多个关键学术挑战。在回归分析维度,它推动了从线性模型到集成学习的演进,通过对比线性回归、随机森林与梯度提升机的表现,揭示了非线性和集成方法在价格预测中的显著优势。在分类任务中,数据集引导研究者思考精确率与召回率之间的权衡,特别是在高档商品识别场景下,不同错误类型的商业损失差异成为模型评估的核心考量。此外,数据预处理阶段的噪声过滤、异常值处理与目标变量缩尾操作,为处理实际零售数据中的分布偏斜与离群点提供了方法论参考。特征工程层面,频次编码与聚类特征的有效性验证了非结构化信息在结构化预测中的价值,拓展了定价领域中特征表示的研究边界。
衍生相关工作
围绕该数据集已孕育出一系列富有启发性的延伸研究工作。其中一个重要方向是将K-Means聚类生成的隐藏结构作为新特征融入预测模型,该策略被证明比单纯调优模型超参数更能提升性能,凸显了无监督学习在监督任务中的辅助价值。此外,研究者们基于此数据集探索了零售价格预测中的特征重要性分析,发现聚合特征(如簇标签)对模型贡献度往往超过原始属性,这一发现推动了可解释人工智能在定价领域的发展。时间特征工程也成为一个亮点,从原始时间戳中提取的星期几、月份等周期性信号,为研究季节性价格波动提供了范本。这些衍生工作共同丰富了零售数据科学的方法论体系,将预测任务从黑箱建模推向可解释、可复用的成熟范式。
以上内容由遇见数据集搜集并总结生成



