Customer Segmentation and Classification Dataset

github2024-10-16 更新2024-10-22 收录

下载链接：

https://github.com/haroldeustaquio/Data-Mining-UNAM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含客户的购买行为和人口统计特征，用于细分和分类客户。

This dataset contains customers' purchase behaviors and demographic characteristics, and is used for customer segmentation and classification.

创建时间：

2024-09-21

原始信息汇总

数据集概述

基本信息

数据集名称: Data-Mining-UNAM
来源: 墨西哥国立自治大学(UNAM)数据挖掘课程项目
内容: 包含4个数据分析项目，涉及销售交易、文本生成和医疗数据分析

项目详情

1. Sales Beverage（饮料销售分析）

目标: 分析等渗饮料交易数据，识别购买模式和客户行为趋势
分析方法:
- 关联模型:
  - Apriori算法: 发现产品间的频繁关系
  - FP-Growth算法: 高效发现关联模式
- 时间序列模型:
  - ARIMA模型: 分析和预测销售趋势
  - 三重指数平滑: 提供更准确的需求预测

2. Sales Transaction（销售交易分析）

目标: 分析产品交易数据，识别客户购买模式和趋势
分析方法:
- 聚类算法:
  - K-Means聚类: 基于邻近度划分数据点
  - 凝聚聚类: 合并相似数据点形成层次结构
- 分类算法:
  - 决策树: 通过分层分割数据
  - 逻辑回归: 通过sigmoid函数建模二元分类
- 回归算法:
  - 决策树回归器: 预测连续值
  - 梯度提升回归器: 结合弱模型提高预测精度

3. Neural Network（神经网络）

目标: 基于《哈利波特》系列生成文本
技术:
- 序列到序列(seq2seq)模型
- 编码器-解码器架构
- 词嵌入技术

4. Final Project（最终项目）

目标: 分析2022年肿瘤护理趋势，优化癌症患者服务质量
分析方法:
- 时间序列分析(ARIMA): 分析和预测每月肿瘤护理就诊量
- 分类模型:
  - 随机森林分类器
  - 逻辑回归
  - ComplementNB
  - CategoricalNB
  - 决策树分类器
- 聚类模型:
  - KMeans
  - DBSCAN

运行要求

基础库: bash pip install pandas numpy matplotlib scikit-learn seaborn statsmodels mlxtend shap
神经网络专用库: bash pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu121 pip install torchtext==0.18

搜集汇总

数据集介绍

构建方式

该数据集由墨西哥国立自治大学（UNAM）的数据挖掘课程开发，涵盖了多个与客户行为、销售交易和文本生成相关的项目。数据集的构建基于实际交易数据和客户行为分析，通过应用关联模型和时间序列模型，如Apriori和ARIMA，来识别购买模式和趋势。此外，数据集还包括了基于神经网络的文本生成模型，使用Encoder-Decoder架构和词嵌入技术，以Harry Potter系列为基础生成文本。

使用方法

使用该数据集时，用户需确保安装了必要的Python库，如pandas、numpy、scikit-learn等，以支持数据处理和模型训练。具体操作包括加载数据、应用预处理技术、选择合适的模型进行训练和评估。例如，在销售交易分析中，用户可以应用K-Means聚类和决策树分类算法来识别客户群体和预测购买行为。

背景与挑战

背景概述

Customer Segmentation and Classification Dataset是由墨西哥国立自治大学（UNAM）在2024年第二学期开发的一系列数据挖掘项目的一部分。该数据集主要用于分析客户行为、销售交易以及基于《哈利·波特》系列的数据生成。核心研究问题包括通过关联和时间序列模型识别购买模式和趋势，以及通过聚类、分类和回归模型提取可操作的见解。这些研究不仅有助于提升饮料公司的营销和销售策略，还为优化癌症患者的服务质量和资源分配提供了重要参考。

当前挑战

Customer Segmentation and Classification Dataset在构建过程中面临多个挑战。首先，数据集涉及的领域问题包括客户行为分析和销售交易模式的识别，这些都需要复杂的模型来处理。其次，构建过程中遇到的挑战包括数据的高维性和噪声，这要求采用高效的算法如Apriori和FP-Growth来提取频繁项集，以及使用ARIMA和Triple Exponential Smoothing等时间序列模型来准确预测销售趋势。此外，数据集的多样性和复杂性也增加了模型训练和验证的难度。

常用场景

经典使用场景

在客户细分与分类数据集中，经典的使用场景之一是通过销售交易数据进行客户行为分析。具体而言，该数据集利用聚类算法如K-Means和层次聚类（Agglomerative Clustering）来识别和划分不同的客户群体，从而揭示购买模式和趋势。此外，分类算法如决策树和逻辑回归被应用于预测客户未来的购买行为，为营销策略的优化提供数据支持。

解决学术问题

该数据集解决了多个学术研究中的关键问题，特别是在客户行为分析和市场细分领域。通过应用先进的机器学习模型，如时间序列分析（ARIMA）和关联规则挖掘（Apriori），研究者能够更精确地预测销售趋势和识别频繁的购买模式。这不仅提升了学术研究的质量，还为实际应用中的营销和销售策略提供了科学依据。

实际应用

在实际应用中，客户细分与分类数据集被广泛用于零售和电子商务行业。通过分析客户的购买历史和行为模式，企业能够制定个性化的营销策略，提高客户满意度和忠诚度。此外，该数据集还被用于优化库存管理和供应链决策，确保产品供应与市场需求的高度匹配，从而提升整体运营效率。

数据集最近研究