superkart-train

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/gsri24/superkart-train

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含产品与商店相关的特征信息，具体字段包括：产品重量（Product_Weight，float64类型）、产品含糖量（Product_Sugar_Content，字符串类型）、产品分配区域（Product_Allocated_Area，float64类型）、产品类型（Product_Type，字符串类型）、产品MRP（Product_MRP，float64类型）、商店ID（Store_Id，字符串类型）、商店规模（Store_Size，字符串类型）、商店所在城市类型（Store_Location_City_Type，字符串类型）、商店类型（Store_Type，字符串类型）、商店年龄（Store_Age，整型）以及目标变量（target，float64类型）。数据集包含一个训练集（train）分块，共7,010条样本，总大小为877,196字节。

创建时间：

2026-04-13

原始信息汇总

好的，根据您提供的信息，以下是对该数据集详情页面的总结。

数据集概述：superkart-train

该数据集是一个用于训练的数据集，旨在通过多种特征预测目标变量。

数据集结构

数据集包含一个默认配置（default），其中包含一个训练集（train）。该训练集共有 7010 个样本，总大小约为 877 KB。

特征字段

数据集包含12个特征，具体如下：

字段名称	数据类型	描述
`Product_Weight`	float64	产品重量
`Product_Sugar_Content`	string	产品含糖量
`Product_Allocated_Area`	float64	产品分配区域
`Product_Type`	string	产品类型
`Product_MRP`	float64	产品最高零售价
`Store_Id`	string	商店ID
`Store_Size`	string	商店规模
`Store_Location_City_Type`	string	商店所在城市类型
`Store_Type`	string	商店类型
`Store_Age`	int64	商店已运营年限
`target`	float64	目标变量
`__index_level_0__`	int64	索引列

数据用途

此数据集可用于构建和训练回归预测模型，根据产品属性（如重量、类型、价格）和商店属性（如规模、位置、类型）来预测 target 变量的值。

搜集汇总

数据集介绍

构建方式

superkart-train数据集源自零售行业中的超市运营场景，旨在为商品销售预测与库存管理提供数据支持。该数据集通过整合多源业务数据构建而成，涵盖了商品属性与门店特征两大维度。其中商品属性包括重量、含糖量、分配区域、类型及最高零售价格（MRP），而门店特征则包含唯一标识、规模、所在城市类型、经营类型及运营时长。数据以结构化表格形式存储，共包含7010个训练样本，所有字段均为数值或类别型特征，其中目标变量“target”代表销售或需求指标。数据文件以parquet格式组织，便于高效加载与处理。

特点

该数据集的核心特点在于其多维度的特征组合，融合了商品层面的物理与定价属性以及门店层面的运营与环境属性。商品属性中既包含连续型变量如重量与MRP，也包含离散型变量如含糖量与类型；门店特征则覆盖了规模、城市类型等分类变量，以及运营时长这类时间相关变量。这种混合数据类型的设计使得模型能够同时捕捉商品内在特性与市场环境对销售的影响。此外，数据集已预设训练集划分，无需用户自行分割，便于快速启动实验，且样本量适中，适合中小规模机器学习模型的训练与验证。

使用方法

使用superkart-train数据集时，需先通过HuggingFace Datasets库加载数据文件，配置默认的config名称及训练子集路径。加载后可直接获得包含12个字段的DataFrame对象，其中“__index_level_0__”为索引列，建议在预处理阶段移除以避免干扰。特征中“Product_Weight”“Product_MRP”等数值列可进行标准化或归一化处理，“Product_Sugar_Content”“Store_Type”等类别列则需转换为数值编码或进行独热编码。目标变量“target”为回归任务设计，适用于销量预测等场景，可集成线性回归、树模型或深度学习模型进行训练与评估。

背景与挑战

背景概述

在零售与快速消费品行业，精准预测产品销量是优化库存管理、提升运营效率的关键环节。superkart-train数据集应运而生，由某研究团队或机构创建，旨在通过多维度特征刻画零售场景下的销量规律。该数据集涵盖了产品属性（如重量、含糖量、类型及最高零售价）、门店特征（如标识、规模、所在城市类型及运营年限）以及空间分配信息，共包含7010个训练样本。其核心研究问题在于构建一个能够整合异构数据的预测模型，以应对零售数据中普遍存在的非线性关联与交互效应。这一数据集的发布为供应链优化、动态定价策略及零售科学领域提供了标准化的基准，推动了数据驱动决策在实体零售中的应用深度。

当前挑战

superkart-train数据集所解决的领域问题聚焦于零售销量预测中多源数据融合的复杂性。一方面，产品特征与门店特征之间存在非对称影响，例如高糖产品在特定城市类型中的销售表现可能截然不同，这要求模型具备捕捉高阶交互的能力。另一方面，构建过程中面临的挑战包括数据稀疏性与特征异构性——产品重量与含糖量的量纲各异，门店规模与年龄等类别变量需进行有效编码。此外，训练样本规模有限（7010条）使得模型易陷入过拟合，尤其在处理区域分配字段中的长尾分布时，鲁棒性成为关键瓶颈。这些挑战共同指向如何在小样本前提下实现泛化性能与解释性的平衡。

常用场景

经典使用场景

在零售与快消品智能分析领域，superkart-train数据集作为一个融合产品属性与门店特征的回归预测基准，其经典用途在于构建零售销量或定价模型。研究人员基于产品重量、含糖量、分配区域及最高零售价等结构化特征，结合门店规模、所在城市类型、运营时长等环境变量，利用该数据集的7010条训练样本进行模型训练与验证。这些特征天然适配于梯度提升树、神经网络等回归算法，用以预测连续型目标变量。该数据集凭借清晰的特征字段和适中的样本量，成为教学科研中验证特征工程方法与回归模型性能的标准测试平台。

衍生相关工作

围绕superkart-train数据集，衍生出一系列聚焦零售数据特征工程与集成学习优化的经典研究。相关工作包括基于产品类型与门店年龄的分层回归模型，以解析门店生命周期对销售的影响；亦有研究利用该数据集验证梯度提升机在含混合数据类型特征时的鲁棒性。此外，有学者引入贝叶斯优化方法对该数据集进行超参数调校实验；另有一部分工作侧重于构建混合注意力机制的神经网络，用于自动捕捉产品重量与门店规模之间的非线性关联。这些衍生工作共同推动了面向结构化零售数据的深度学习轻量化探索。

数据集最近研究