SaishDatta/sales-forecast-dataset

Name: SaishDatta/sales-forecast-dataset
Creator: SaishDatta
Published: 2026-04-25 12:34:16
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/SaishDatta/sales-forecast-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: Product_Weight dtype: float64 - name: Product_Sugar_Content dtype: int64 - name: Product_Allocated_Area dtype: float64 - name: Product_Type dtype: int64 - name: Product_MRP dtype: float64 - name: Store_Size dtype: int64 - name: Store_Location_City_Type dtype: int64 - name: Store_Type dtype: int64 - name: Product_Store_Sales_Total dtype: float64 - name: Store_Age dtype: int64 - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 616880 num_examples: 7010 - name: test num_bytes: 154264 num_examples: 1753 download_size: 251698 dataset_size: 771144 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* ---

提供机构：

SaishDatta

搜集汇总

数据集介绍

构建方式

销售预测作为零售与供应链管理中的核心议题，其数据集的构建需融合商品属性与门店特征等多维信息。该数据集囊括了7010个训练样本与1753个测试样本，以商品重量、含糖量、分配面积、类型及零售价格等商品特征，结合门店规模、所在城市类型、运营年限与门店类型等环境要素，共同构成了对商品-门店层级销售额的全面刻画。数据以浮点与整数类型统一存储，确保了不同量纲特征间的可计算性，为监督学习任务提供了清晰的特征-标签映射结构。

特点

本数据集在结构设计上体现出高度的典型性与实用性。其核心特征集覆盖了影响销售的关键物理与商业维度，如商品重量与价格构成的成本与价值对称、含糖量与类型反映的消费偏好、分配面积与门店规模表征的渠道能力，以及城市类型与门店类型蕴含的地域与业态差异。近八千条样本的分布确保了训练集与测试集以4:1的比例划分，既维持了模型的泛化评估空间，又为时序性或随机性销售模式的挖掘提供了充足的数据支撑。

使用方法

该数据集可直接加载至机器学习框架进行回归建模。基于HuggingFace Datasets库，用户可通过指定默认配置自动获取训练与测试分割文件，路径结构遵循标准化的data/train-*与data/test-*格式。在建模过程中，可将除商品-门店销售额外的所有字段作为输入特征，销售额作为预测目标；同时建议对数值特征进行标准化处理，并探索商品与门店属性的交叉特征工程，以捕获其交互效应对销售波动的深层影响。

背景与挑战

背景概述

销售预测作为零售业与供应链管理的核心环节，历来是数据科学与商业智能交汇的关键战场。sales-forecast-dataset数据集由专业研究机构或团队于近年构建，旨在通过挖掘产品属性（如重量、含糖量、分配面积、类型及定价）与门店特征（规模、所在城市类型、业态及运营年限）之间的复杂关联，精准预测特定产品在门店的销售总量。该数据集涵盖了约8763个样本，且已划分子集用于模型训练与评估，为探究多维度特征对销售动态的联合影响提供了标准化基准。其诞生显著推动了零售领域时间序列预测、特征工程及回归建模技术的发展，成为相关学者与从业者验证算法效能、优化库存策略的实用资源。

当前挑战

该数据集所面对的领域核心挑战在于零售销售预测的高度非线性与多因素交互性，如何从混杂的产品微观属性与门店宏观环境中提炼出稳健的预测信号，同时规避稀疏特征与噪声数据对模型的误导，是根本问题。在构建过程中，研究者需克服数据预处理中属性缺失与异常值的识别处理，确保各数值型与分类型特征在跨门店类型与城市类型场景下具备可比性。此外，样本总量有限，约七千余条训练记录要求算法必须具备高效泛化能力，以防止过拟合至特定模式，从而在有限数据中捕获普适的销售规律。

常用场景

经典使用场景

在零售与消费品的精准管理领域，销量预测数据集是驱动精细化运营决策的核心基石。该数据集融合了产品属性（如重量、含糖量、类型与最高零售价）、商店特征（规模、所在城市类型、运营年限）以及地域规划信息（分配区域），为构建回归或时间序列预测模型提供了丰富的特征维度。经典用法通常聚焦于利用这些结构化字段，通过梯度提升树、深度神经网络或集成学习算法，预测特定产品在特定商店的未来销售总量，从而辅助库存优化与供应链调度。

实际应用

在实际商业场景中，该数据集赋能企业实现从经验驱动到数据驱动的决策跃迁。零售商可基于模型预测结果动态调整安全库存水位，降低缺货损失与滞销积压风险；生产商则能优化产品配送到不同区域门店的批次与频次，减少物流成本。此外，结合季节因子与产品特性，该数据集还支持自动定价策略的制定，例如根据预测销量弹性调整最高零售价，从而在竞争激烈的市场中提升毛利率。

衍生相关工作

该数据集衍生了一系列标杆性工作，成为零售预测领域的参照基准。研究者基于此构建了融合特征工程的轻量级预测框架，如利用产品类型与商店规模的交叉效应改进树模型的分裂准则；另有工作探索了异构特征（如分类变量与连续变量）的深度表征学习，通过Transformer架构捕捉产品属性与销售时序间的非线性依赖。这些衍生工作不仅增强了数据集本身的应用价值，还催生了诸如跨门店销售迁移学习等前沿研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集