aldon-cabral/SuperKart-dataset

Name: aldon-cabral/SuperKart-dataset
Creator: aldon-cabral
Published: 2026-04-25 14:03:44
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/aldon-cabral/SuperKart-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个零售销售数据集，包含产品属性（如产品重量、糖含量、分配区域、类型、建议零售价）和商店属性（如商店规模、位置城市类型、商店类型、商店年龄），以及产品在商店的总销售额。数据用于分析产品与商店特征对销售表现的影响，适用于预测建模或商业分析任务。数据集分为训练集（7010个样本）和测试集（1753个样本）。

This dataset is a retail sales dataset containing product attributes (e.g., product weight, sugar content, allocated area, type, MRP) and store attributes (e.g., store size, location city type, store type, store age), along with total product sales in stores. It is designed for analyzing the impact of product and store characteristics on sales performance, suitable for predictive modeling or business analysis tasks. The dataset is split into a training set (7,010 examples) and a test set (1,753 examples).

提供机构：

aldon-cabral

搜集汇总

数据集介绍

构建方式

SuperKart-dataset是一个面向零售行业销售预测分析的结构化数据集，旨在为机器学习模型提供训练与评估的基础。该数据集通过整合超市商品属性、商店特征及销售记录构建而成，涵盖了产品重量、含糖量、分配区域、类型、最高零售价、商店规模、所在城市类型、商店类型、店龄以及销售额等多元特征。数据被划分为训练集与测试集，其中训练集包含7010条样本，测试集包含1753条样本，以支持监督学习任务中的模型泛化能力验证。

特点

该数据集的显著特点在于其特征设计的全面性与实际应用导向性。它不仅纳入了商品本身的物理属性（如重量、含糖量）与定价信息，还深度融合了商店的运营特征（如规模、类型、店龄）与地理位置特征（如城市类型）。这种多维度的特征组合能够有效刻画销售场景中的复杂影响因素，为回归分析或预测建模提供了丰富的输入信息。此外，清晰的数据划分与规范的类型定义（浮点型、字符串型、整型）进一步提升了数据集的可用性与可复现性。

使用方法

SuperKart-dataset适用于构建商品销售预测模型，尤其是回归任务。研究者可通过HuggingFace Datasets库直接加载该数据集，并利用默认配置自动获取训练集与测试集。建议在建模前对字符串型字段进行编码转换，并对数值型特征进行标准化或归一化处理。该数据集特别适合用于训练树模型（如随机森林、梯度提升树）或神经网络架构，以探索不同商店与商品组合下的销售规律，从而辅助零售库存管理与定价策略优化。

背景与挑战

背景概述

在零售与快消品行业，精准的销售预测对于库存管理与定价策略至关重要。SuperKart-dataset数据集由零售领域研究团队创建，专注于探索产品属性与门店特征对销售表现的影响。该数据集涵盖了产品重量、糖分含量、货架面积、类型、最高零售价以及门店规模、所在城市类型、经营年限等多维特征，为构建销售预测模型提供了结构化基础。基于该数据集，研究者能够深入剖析不同产品类别与门店环境下的销售规律，从而推动精准营销与动态定价算法的发展。其发布对零售科学领域的数据驱动决策具有显著的促进价值。

当前挑战

该数据集面临的核心挑战在于多维异构特征的整合与销售预测建模。具体而言，产品糖分含量与门店规模等类别型变量需高效编码，而产品重量与货架面积等连续型变量则需处理潜在的分布偏斜与异常值。同时，门店经营年限与城市类型可能引入地域性销售模式异质性，导致模型泛化困难。在构建过程中，原始数据的采集面临字段完整性与一致性校验的难题，例如糖分含量字符串格式的标准化，以及训练集与测试集（7010/1753样本）划分需确保销售数据的时间序列特性不被破坏。这些挑战共同构成了在零售场景下实现鲁棒预测的关键障碍。

常用场景

经典使用场景

在零售与快消品数据分析领域，SuperKart-dataset以其丰富的产品属性与店铺特征，成为预测商品销售表现的经典基准数据集。研究者常利用其中的产品重量、含糖量、类型与最高零售价等字段，结合店铺规模、所在城市类型、店铺类型及年龄等环境变量，建模分析产品在特定渠道中的销售总量。该数据集通过涵盖不同产品类别与多样化的零售场景，为回归与预测任务提供了标准化的训练与测试划分，有效支持了从传统统计回归到现代集成学习及神经网络模型的开发与评估。

衍生相关工作

基于SuperKart-dataset，研究者衍生出一系列经典工作，涵盖销售时序建模、异构特征融合与个性化推荐策略。例如，有工作将产品含糖量等类型特征进行嵌入表示，结合店铺画像构建分层预测模型，有效捕捉了类别间的细微差异。另一些研究则聚焦于跨店销售模式的迁移学习，通过共享店铺位置与规模信息，实现了冷启动场景下的销售预估。这些衍生工作不仅深化了零售数据分析的方法论体系，也为后续多模态预测模型提供了可复现的评估基准。

数据集最近研究