SuperKart-dataset

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/DeeptaV/SuperKart-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含产品与商店关联的销售数据，涵盖7010条训练样本和1753条测试样本。数据特征包括产品ID、产品重量（浮点数）、产品含糖量（字符串）、产品分配区域（浮点数）、产品类型（字符串）、产品MRP（浮点数）、商店ID（字符串）、商店成立年份（整数）、商店规模（字符串）、商店所在城市类型（字符串）、商店类型（字符串）以及产品商店销售总额（浮点数）。数据集总大小为1.18MB，下载大小为316KB，数据以CSV格式存储，分为训练集和测试集两个分割。

创建时间：

2026-03-29

原始信息汇总

SuperKart-dataset 数据集概述

数据集基本信息

数据集名称：SuperKart-dataset
发布者：DeeptaV
数据来源：https://huggingface.co/datasets/DeeptaV/SuperKart-dataset

数据集结构与内容

数据特征

数据集包含以下12个特征字段：

Product_Id：产品ID，字符串类型。
Product_Weight：产品重量，浮点数类型。
Product_Sugar_Content：产品含糖量，字符串类型。
Product_Allocated_Area：产品分配区域，浮点数类型。
Product_Type：产品类型，字符串类型。
Product_MRP：产品最大零售价，浮点数类型。
Store_Id：商店ID，字符串类型。
Store_Establishment_Year：商店成立年份，整数类型。
Store_Size：商店规模，字符串类型。
Store_Location_City_Type：商店所在城市类型，字符串类型。
Store_Type：商店类型，字符串类型。
Product_Store_Sales_Total：产品商店销售总额，浮点数类型。

数据划分

数据集包含两个数据划分：

训练集：包含1,468个样本，文件大小约为186,430字节。
测试集：包含368个样本，文件大小约为46,655字节。

数据规模

下载大小：62,063字节。
总数据集大小：233,085字节。

数据文件配置

配置名称：default
训练集文件路径：data/train-*
测试集文件路径：data/test-*

搜集汇总

数据集介绍

构建方式

在零售与供应链管理领域，数据驱动的决策支持系统日益重要。SuperKart-dataset的构建源于对商品销售与店铺运营关联性的深入探索，通过系统化采集真实零售环境中的多维度信息。该数据集整合了产品属性、店铺特征及销售记录，涵盖产品标识、重量、含糖量、货架分配面积、类型、建议零售价，以及店铺标识、成立年份、规模、城市类型和运营模式等关键字段。数据以结构化表格形式组织，划分为训练集与测试集，确保了机器学习模型开发与评估的可行性。

特点

SuperKart-dataset的显著特点在于其多维度的零售数据融合，既包含产品层面的物理与分类属性，也涵盖店铺层面的时空与结构特征。数据集通过产品与店铺的交叉关联，记录了具体的销售总额，为分析商品表现与店铺环境之间的相互作用提供了丰富线索。其字段设计兼顾了连续型数值与分类型标签，支持回归、分类及关联规则挖掘等多种分析任务。数据规模适中，划分清晰，便于在有限计算资源下进行高效的模型训练与验证。

使用方法

对于希望利用SuperKart-dataset的研究者或实践者，该数据集可直接用于预测建模、销售分析与零售策略优化。典型应用包括基于产品与店铺特征预测销售总额的回归模型，或根据店铺属性对产品类型进行推荐的分类任务。使用时可从HuggingFace平台加载数据，利用提供的训练集进行模型训练，并使用独立的测试集评估性能。数据已预处理为可直接读取的格式，支持Pandas或类似工具进行进一步的特征工程与可视化分析。

背景与挑战

背景概述

SuperKart数据集聚焦于零售与供应链管理领域，旨在通过整合产品与商店的多维度信息，为销售预测与库存优化提供数据基础。该数据集由相关研究机构或团队构建，其核心研究问题在于揭示产品特性、商店属性与销售表现之间的复杂关联，以推动数据驱动的零售决策科学化。自创建以来，它已成为机器学习与商业分析交叉应用的重要资源，促进了预测模型在现实零售场景中的验证与提升。

当前挑战

该数据集所解决的领域问题涉及零售销售预测，其挑战在于建模高度非线性的销售影响因素，如产品糖分含量、商店区位类型与历史销售数据的交互效应。构建过程中的挑战则体现在多源数据的清洗与对齐，例如产品重量与商店规模的标准化表示，以及确保销售总额数据在跨商店与产品类别中的一致性与可靠性。

常用场景

经典使用场景

在零售与供应链管理领域，SuperKart-dataset以其丰富的产品与商店属性数据，为销售预测模型的构建提供了经典应用场景。该数据集整合了产品重量、糖分含量、建议零售价以及商店规模、位置类型等多维度特征，使研究者能够深入探索商品销售与各类因素之间的复杂关联。通过机器学习或统计方法，可以训练模型精准预测不同商店中特定产品的总销售额，从而优化库存管理与定价策略。

衍生相关工作

围绕SuperKart-dataset，学术界衍生了一系列经典研究工作。这些工作主要集中于开发先进的销售预测算法，如结合时空特征的图神经网络模型，以捕捉商店间的竞争与协同效应。此外，研究还利用该数据集进行因果发现分析，探究产品属性对销售额的真实影响，避免了混杂偏差。这些成果不仅丰富了零售分析的方法论，也为后续更复杂的商业智能数据集构建提供了重要参考。

数据集最近研究