superkart-test

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/gsri24/superkart-test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含零售场景下的产品与商店特征信息，涵盖1753个训练样本。数据特征包括产品属性（重量、含糖量、分配区域、类型、零售价）、商店属性（ID、规模、所在城市类型、商店类型、经营年限）以及一个数值型目标变量。数据集仅包含训练集，文件大小为219KB。字段类型涵盖浮点数、字符串和整型，适用于零售销售预测、产品分配优化等机器学习任务。

创建时间：

2026-04-13

原始信息汇总

根据您提供的README文件内容，该数据集详情如下：

数据集概述

数据集名称：superkart-test
数据集地址：https://huggingface.co/datasets/gsri24/superkart-test
许可证：未提及。

数据集特征

该数据集包含以下12个特征（字段）：

Product_Weight（float64）：产品重量
Product_Sugar_Content（string）：产品含糖量
Product_Allocated_Area（float64）：产品分配区域
Product_Type（string）：产品类型
Product_MRP（float64）：产品最高零售价
Store_Id（string）：商店ID
Store_Size（string）：商店规模
Store_Location_City_Type（string）：商店所在城市类型
Store_Type（string）：商店类型
Store_Age（int64）：商店运营年限
target（float64）：目标变量
index_level_0（int64）：索引列

数据集划分

训练集（train）：共1753个样本，占用219734字节。

文件大小

下载大小：49463字节
数据集大小：219734字节

配置文件

配置名称：default
数据文件路径：data/train-*（训练集数据文件）

搜集汇总

数据集介绍

构建方式

在零售与消费市场的分析研究中，数据集的构建往往要兼顾产品属性与门店特征的双重维度。superkart-test数据集正是基于这一理念，整合了来自不同门店的产品销售与运营信息。该数据集以表格形式存储，共包含1753个训练样本，每个样本由12个字段组成，涵盖了产品层面的重量、糖含量、分配面积、类型及最高零售价，以及门店层面的标识、规模、所在城市类型、业态与运营年限等属性。数据以单训练集划分提供，存储于Parquet格式文件中，便于高效加载与后续建模。

使用方法

使用该数据集时，可直接通过HuggingFace的datasets库加载，指定split为'train'即可获取全部样本。研究者可依据任务需求，选取产品属性与门店特征作为输入变量，以'target'列为预测目标，构建回归或分类模型。数据无需额外清洗即可用于常见的机器学习框架，如scikit-learn或PyTorch。在探索性分析阶段，可对数值特征进行标准化或缩放，对类别特征进行独热编码或标签编码。该数据集亦适合作为零售数据分析的教学案例或基准测试集。

背景与挑战

背景概述

superkart-test数据集诞生于零售与消费领域，旨在为商品销售预测与库存管理提供基准数据资源。该数据集由未知机构于近期创建，聚焦于探索商品属性（如重量、糖分含量、类型及定价）与店铺特征（如规模、所在城市类型、经营年限）对销售目标的影响。其核心研究问题在于揭示多维度因素如何协同作用，从而优化零售决策。尽管公开信息有限，但该数据集的推出有望推动特征工程与预测模型在快消行业的应用，为供应链效率提升注入新动力。

当前挑战

该数据集面临的挑战主要体现在两方面：首先，在领域问题层面，零售销售预测长期受困于复杂非线性关系与外部干扰因素（如季节性、促销活动），而superkart-test仅包含有限静态特征，难以充分捕捉动态市场变化。其次，构建过程中，数据采集可能面临缺失值处理（如糖分含量存在非数值记录）与类别不平衡（部分商品类型样本稀缺）的困境，且仅1753条训练样本的规模限制了模型泛化能力，增加了过拟合风险。

常用场景

经典使用场景

在零售与供应链管理研究领域，superkart-test数据集作为经典的销售预测与库存优化基准，被广泛用于构建基于产品属性与门店特征的回归模型。该数据集涵盖了产品重量、含糖量、分配区域、类型及最高零售价等特征，同时包含门店标识、规模、所在城市类型、经营年限等结构化信息，为多维度关联分析提供了坚实的数据基础。研究者常借助此数据集训练梯度提升树或神经网络模型，以预测销售目标变量，从而评估不同特征组合对销量的驱动作用。该数据集规模适中，样本量为1753条，既保证了模型训练的可行性，又保留了实际零售场景的复杂性，成为验证预测算法鲁棒性的理想选择。

解决学术问题

superkart-test数据集有效解决了零售销量预测中特征异质性与非线性关系建模的学术难题。传统计量模型常难以处理产品价格、门店规模与城市类型等离散与连续变量的交互效应，而该数据集丰富的特征分布为探究价格弹性、区域偏好及门店生命周期对销量的影响提供了实证支持。通过引入该数据集，研究者能够对比多元线性回归、随机森林与深度学习方法在稀疏高维特征下的预测精度，推动了特征工程与模型可解释性研究的进展。其公开可复现的特性还促进了跨机构间的基准测试，显著提升了零售需求预测领域的科学严谨性。

实际应用

在实际零售业务中，superkart-test数据集的核心价值在于辅助企业进行精细化库存管理与动态定价决策。基于产品重量与含糖量等属性，零售商可优化货架分配方案；结合门店类型与城市等级，可制定差异化补货策略，减少缺货或滞销风险。例如，模型可识别出高糖分产品在大型门店的销量峰值，进而调整促销周期与仓储预算。此外，该数据集也可用于模拟门店迁址或改造后的营收变化，为选址评估提供数据驱动的洞察。通过目标变量的预测，企业能更精准地制定采购计划，降低运营成本，提升整体供应链效率。

数据集最近研究