Supermarket Sales Tracker Dataset

github2024-09-29 更新2024-09-30 收录

下载链接：

https://github.com/haroldeustaquio/Supermarket-Sales-Tracker-Mx

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与客户购买行为和人口统计特征相关的多种变量。产品相关变量包括行业、类型、生产线、子生产线、包装、重量、产品描述等。交易细节包括日期、交易、订单、数量、价格等。客户人口统计信息包括客户编号、子女数量、资历、年龄、教育程度、婚姻状况、州、性别等。这些变量提供了关于客户购买行为的详细信息，使公司能够更好地理解其人口统计特征以及他们与不同产品类别的互动。

This dataset encompasses a variety of variables associated with customer purchase behavior and demographic traits. Product-related variables cover industry, category, product line, sub-product line, packaging, weight, product description, and so on. Transaction details include date, transaction record, order, quantity, price, and other relevant metrics. Customer demographic information encompasses customer ID, number of children, tenure, age, educational attainment, marital status, state of residence, gender, and more. These variables offer comprehensive insights into customer purchase behavior, allowing enterprises to gain a deeper understanding of their demographic profiles and their engagement with different product categories.

创建时间：

2024-09-21

原始信息汇总

超市销售数据集

项目概述

该项目应用多种机器学习模型分析一个真实世界的数据集。聚类技术（如聚类）已被用于根据客户的购买行为和人口统计特征对客户进行分段。此外，分类模型（如决策树和逻辑回归）在需要根据不同标准对客户进行分类的特定情况下使用。未来，回归模型将被应用于预测变量之间的趋势和定量关系，使公司能够预测未来的行为并优化其业务策略。这种深入分析将使营销和销售行动能够定制化，从而在各个产品领域改善结果。

业务背景

该数据集来自一家寻求基于客户行为优化其营销和销售策略的公司。此分析的主要目标包括：

客户分段：根据人口统计特征（如年龄、婚姻状况、教育水平）和购买模式（如产品偏好、消费习惯）将客户分组。
产品领域分析：分析产品领域以识别特定类别、系列和子系列的销售额趋势和客户行为。

通过利用聚类，公司旨在：

个性化营销策略：针对每个客户群体定制营销活动，提供相关产品和促销。
识别新的商业机会：发现潜在市场或客户需求，可以通过新产品开发或扩展到不同领域来解决。
改善客户体验：通过了解客户的特定需求和偏好，提供更个性化的服务，从而提高客户满意度和忠诚度。

数据描述

数据集包含与客户购买和人口统计相关的多种变量：

产品相关变量：Industry, Type, Line, Subline, Presentation, Weight, Product, Description
交易详情：Date, Transaction, Order, Quantity, Price, Max_Price, Max_Price_Dif, Amount
客户人口统计：Customer, Customer_Key, No._Children, Seniority, Age, Age_Range, Education, Marital_Status, State, Sex
业务标识符：Company, Year
其他变量：Function, Group

这些变量提供了关于客户购买行为的详细信息，使公司能够更好地理解他们的人口统计特征以及他们与不同产品类别的互动方式。

使用的聚类算法

以下聚类算法在本项目中使用：

K-Means聚类：一种经典的分区算法，根据距离将每个数据点分配到最近的聚类中心。
凝聚聚类：适用于创建聚类层次结构，基于相似性将数据加入到更大的组中，从每个数据点作为自己的聚类开始。它特别适用于揭示数据的层次结构。

使用的分类算法

以下分类算法在本项目中使用：

决策树：一种基于规则的分层模型，通过连续分割数据来选择最大化类间分离的特征。它对于清晰和可视化的决策过程解释非常有用。
逻辑回归：一种统计模型，用于预测实例属于特定类的概率。它特别适用于二分类问题，允许通过sigmoid函数建模特征和类之间的关系。

这两种算法为数据的分类提供了有价值的见解，并帮助优化模型的性能。

要求

确保安装以下Python库：

pandas
numpy
matplotlib
scikit-learn

搜集汇总

数据集介绍

构建方式

该数据集的构建基于墨西哥国立自治大学（UNAM）数据挖掘课程中的多个项目，涵盖了销售交易、饮料销售和文本生成等多个领域。具体而言，数据集通过收集和分析超市销售交易数据，应用了关联模型和时间序列模型，如Apriori和ARIMA，以识别购买模式和趋势。此外，通过聚类、分类和回归算法，如K-Means和决策树，进一步解析了客户行为和销售趋势。

特点

该数据集的显著特点在于其多维度的数据分析方法和广泛的应用场景。不仅包含了销售数据的详细记录，还通过多种机器学习模型进行深入分析，从而揭示了客户购买行为的复杂模式。此外，数据集还结合了时间序列分析，能够预测未来的销售趋势，为市场营销策略的制定提供了科学依据。

使用方法

使用该数据集时，用户需确保安装了必要的Python库，如pandas、numpy和scikit-learn等。通过加载数据集，用户可以应用各种预定义的模型进行分析，如Apriori算法用于关联规则挖掘，ARIMA模型用于时间序列预测。此外，用户还可以根据具体需求，调整和优化模型参数，以获得更精确的分析结果。

背景与挑战

背景概述

Supermarket Sales Tracker Dataset是由墨西哥国立自治大学（UNAM）在2024年第二学期开发的数据集，主要用于数据挖掘课程中的多个项目。该数据集的核心研究问题集中在客户行为、销售交易以及基于《哈利·波特》系列的数据生成。通过分析销售饮料和交易数据，研究人员旨在揭示购买模式和趋势，从而优化营销和销售策略。此外，该数据集还应用于神经网络项目，通过序列到序列模型生成文本，进一步扩展了其在文本生成领域的应用。

当前挑战

Supermarket Sales Tracker Dataset在构建过程中面临多项挑战。首先，数据集需要处理大量的销售交易数据，以识别复杂的客户购买模式和趋势，这对数据处理和分析技术提出了高要求。其次，在应用神经网络模型生成文本时，如何准确捕捉和表达《哈利·波特》系列中的语义关系，是一个技术上的难题。此外，数据集在应用于医疗领域的最终项目时，需要处理和分析复杂的患者数据，以优化癌症患者的护理服务，这要求模型具有高度的准确性和可靠性。

常用场景

经典使用场景

在零售业中，Supermarket Sales Tracker Dataset 被广泛用于分析销售交易数据，以揭示顾客购买行为和趋势。通过应用关联模型如 Apriori 和 FP-Growth，研究者能够识别频繁购买的商品组合，从而优化货架布局和促销策略。此外，时间序列模型如 ARIMA 和 Triple Exponential Smoothing 被用于预测未来的销售趋势，帮助零售商制定库存管理和市场营销计划。

实际应用

在实际应用中，Supermarket Sales Tracker Dataset 被零售商用于优化商品陈列和促销活动，以提高销售额和顾客满意度。通过分析顾客的购买历史，零售商能够定制个性化的营销策略，提升顾客忠诚度。此外，数据集还被用于库存管理，通过预测销售趋势，减少库存积压和缺货现象，从而提高运营效率。

衍生相关工作

基于 Supermarket Sales Tracker Dataset，研究者开发了多种数据挖掘和机器学习模型，如 K-Means 聚类和决策树分类，用于顾客细分和购买行为预测。此外，该数据集还激发了关于零售业中时间序列分析和关联规则挖掘的进一步研究，推动了相关算法和技术的创新与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集