five

SuperKart-dataset

收藏
Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/DeeptaV/SuperKart-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含产品与商店关联的销售数据,涵盖7010条训练样本和1753条测试样本。数据特征包括产品ID、产品重量(浮点数)、产品含糖量(字符串)、产品分配区域(浮点数)、产品类型(字符串)、产品MRP(浮点数)、商店ID(字符串)、商店成立年份(整数)、商店规模(字符串)、商店所在城市类型(字符串)、商店类型(字符串)以及产品商店销售总额(浮点数)。数据集总大小为1.18MB,下载大小为316KB,数据以CSV格式存储,分为训练集和测试集两个分割。
创建时间:
2026-03-29
原始信息汇总

SuperKart-dataset 数据集概述

数据集基本信息

  • 数据集名称:SuperKart-dataset
  • 发布者:DeeptaV
  • 数据来源:https://huggingface.co/datasets/DeeptaV/SuperKart-dataset

数据集结构与内容

数据特征

数据集包含以下12个特征字段:

  • Product_Id:产品ID,字符串类型。
  • Product_Weight:产品重量,浮点数类型。
  • Product_Sugar_Content:产品含糖量,字符串类型。
  • Product_Allocated_Area:产品分配区域,浮点数类型。
  • Product_Type:产品类型,字符串类型。
  • Product_MRP:产品最大零售价,浮点数类型。
  • Store_Id:商店ID,字符串类型。
  • Store_Establishment_Year:商店成立年份,整数类型。
  • Store_Size:商店规模,字符串类型。
  • Store_Location_City_Type:商店所在城市类型,字符串类型。
  • Store_Type:商店类型,字符串类型。
  • Product_Store_Sales_Total:产品商店销售总额,浮点数类型。

数据划分

数据集包含两个数据划分:

  • 训练集:包含1,468个样本,文件大小约为186,430字节。
  • 测试集:包含368个样本,文件大小约为46,655字节。

数据规模

  • 下载大小:62,063字节。
  • 总数据集大小:233,085字节。

数据文件配置

  • 配置名称:default
  • 训练集文件路径:data/train-*
  • 测试集文件路径:data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在零售与供应链管理领域,数据驱动的决策支持系统日益重要。SuperKart-dataset的构建源于对商品销售与店铺运营关联性的深入探索,通过系统化采集真实零售环境中的多维度信息。该数据集整合了产品属性、店铺特征及销售记录,涵盖产品标识、重量、含糖量、货架分配面积、类型、建议零售价,以及店铺标识、成立年份、规模、城市类型和运营模式等关键字段。数据以结构化表格形式组织,划分为训练集与测试集,确保了机器学习模型开发与评估的可行性。
特点
SuperKart-dataset的显著特点在于其多维度的零售数据融合,既包含产品层面的物理与分类属性,也涵盖店铺层面的时空与结构特征。数据集通过产品与店铺的交叉关联,记录了具体的销售总额,为分析商品表现与店铺环境之间的相互作用提供了丰富线索。其字段设计兼顾了连续型数值与分类型标签,支持回归、分类及关联规则挖掘等多种分析任务。数据规模适中,划分清晰,便于在有限计算资源下进行高效的模型训练与验证。
使用方法
对于希望利用SuperKart-dataset的研究者或实践者,该数据集可直接用于预测建模、销售分析与零售策略优化。典型应用包括基于产品与店铺特征预测销售总额的回归模型,或根据店铺属性对产品类型进行推荐的分类任务。使用时可从HuggingFace平台加载数据,利用提供的训练集进行模型训练,并使用独立的测试集评估性能。数据已预处理为可直接读取的格式,支持Pandas或类似工具进行进一步的特征工程与可视化分析。
背景与挑战
背景概述
SuperKart数据集聚焦于零售与供应链管理领域,旨在通过整合产品与商店的多维度信息,为销售预测与库存优化提供数据基础。该数据集由相关研究机构或团队构建,其核心研究问题在于揭示产品特性、商店属性与销售表现之间的复杂关联,以推动数据驱动的零售决策科学化。自创建以来,它已成为机器学习与商业分析交叉应用的重要资源,促进了预测模型在现实零售场景中的验证与提升。
当前挑战
该数据集所解决的领域问题涉及零售销售预测,其挑战在于建模高度非线性的销售影响因素,如产品糖分含量、商店区位类型与历史销售数据的交互效应。构建过程中的挑战则体现在多源数据的清洗与对齐,例如产品重量与商店规模的标准化表示,以及确保销售总额数据在跨商店与产品类别中的一致性与可靠性。
常用场景
经典使用场景
在零售与供应链管理领域,SuperKart-dataset以其丰富的产品与商店属性数据,为销售预测模型的构建提供了经典应用场景。该数据集整合了产品重量、糖分含量、建议零售价以及商店规模、位置类型等多维度特征,使研究者能够深入探索商品销售与各类因素之间的复杂关联。通过机器学习或统计方法,可以训练模型精准预测不同商店中特定产品的总销售额,从而优化库存管理与定价策略。
衍生相关工作
围绕SuperKart-dataset,学术界衍生了一系列经典研究工作。这些工作主要集中于开发先进的销售预测算法,如结合时空特征的图神经网络模型,以捕捉商店间的竞争与协同效应。此外,研究还利用该数据集进行因果发现分析,探究产品属性对销售额的真实影响,避免了混杂偏差。这些成果不仅丰富了零售分析的方法论,也为后续更复杂的商业智能数据集构建提供了重要参考。
数据集最近研究
最新研究方向
在零售与供应链管理领域,SuperKart-dataset以其详尽的商品与商店特征数据,为智能零售分析提供了坚实基础。当前研究聚焦于利用机器学习模型预测商品销售总量,探索产品属性、商店特征与销售表现间的复杂关联。前沿方向包括结合时间序列分析,考量商店成立年份等时序因素,以优化库存管理与定价策略。热点事件如数字化转型推动零售业对数据驱动决策的需求,该数据集支持个性化推荐系统与需求预测模型的开发,对提升零售效率与可持续性具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作