Customer Segmentation and Classification Dataset
收藏github2024-10-16 更新2024-10-22 收录
下载链接:
https://github.com/haroldeustaquio/Data-Mining-UNAM
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含客户的购买行为和人口统计特征,用于细分和分类客户。
This dataset contains customers' purchase behaviors and demographic characteristics, and is used for customer segmentation and classification.
创建时间:
2024-09-21
原始信息汇总
数据集概述
基本信息
- 数据集名称: Data-Mining-UNAM
- 来源: 墨西哥国立自治大学(UNAM)数据挖掘课程项目
- 内容: 包含4个数据分析项目,涉及销售交易、文本生成和医疗数据分析
项目详情
1. Sales Beverage(饮料销售分析)
- 目标: 分析等渗饮料交易数据,识别购买模式和客户行为趋势
- 分析方法:
- 关联模型:
- Apriori算法: 发现产品间的频繁关系
- FP-Growth算法: 高效发现关联模式
- 时间序列模型:
- ARIMA模型: 分析和预测销售趋势
- 三重指数平滑: 提供更准确的需求预测
- 关联模型:
2. Sales Transaction(销售交易分析)
- 目标: 分析产品交易数据,识别客户购买模式和趋势
- 分析方法:
- 聚类算法:
- K-Means聚类: 基于邻近度划分数据点
- 凝聚聚类: 合并相似数据点形成层次结构
- 分类算法:
- 决策树: 通过分层分割数据
- 逻辑回归: 通过sigmoid函数建模二元分类
- 回归算法:
- 决策树回归器: 预测连续值
- 梯度提升回归器: 结合弱模型提高预测精度
- 聚类算法:
3. Neural Network(神经网络)
- 目标: 基于《哈利波特》系列生成文本
- 技术:
- 序列到序列(seq2seq)模型
- 编码器-解码器架构
- 词嵌入技术
4. Final Project(最终项目)
- 目标: 分析2022年肿瘤护理趋势,优化癌症患者服务质量
- 分析方法:
- 时间序列分析(ARIMA): 分析和预测每月肿瘤护理就诊量
- 分类模型:
- 随机森林分类器
- 逻辑回归
- ComplementNB
- CategoricalNB
- 决策树分类器
- 聚类模型:
- KMeans
- DBSCAN
运行要求
-
基础库: bash pip install pandas numpy matplotlib scikit-learn seaborn statsmodels mlxtend shap
-
神经网络专用库: bash pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu121 pip install torchtext==0.18
搜集汇总
数据集介绍

构建方式
该数据集由墨西哥国立自治大学(UNAM)的数据挖掘课程开发,涵盖了多个与客户行为、销售交易和文本生成相关的项目。数据集的构建基于实际交易数据和客户行为分析,通过应用关联模型和时间序列模型,如Apriori和ARIMA,来识别购买模式和趋势。此外,数据集还包括了基于神经网络的文本生成模型,使用Encoder-Decoder架构和词嵌入技术,以Harry Potter系列为基础生成文本。
使用方法
使用该数据集时,用户需确保安装了必要的Python库,如pandas、numpy、scikit-learn等,以支持数据处理和模型训练。具体操作包括加载数据、应用预处理技术、选择合适的模型进行训练和评估。例如,在销售交易分析中,用户可以应用K-Means聚类和决策树分类算法来识别客户群体和预测购买行为。
背景与挑战
背景概述
Customer Segmentation and Classification Dataset是由墨西哥国立自治大学(UNAM)在2024年第二学期开发的一系列数据挖掘项目的一部分。该数据集主要用于分析客户行为、销售交易以及基于《哈利·波特》系列的数据生成。核心研究问题包括通过关联和时间序列模型识别购买模式和趋势,以及通过聚类、分类和回归模型提取可操作的见解。这些研究不仅有助于提升饮料公司的营销和销售策略,还为优化癌症患者的服务质量和资源分配提供了重要参考。
当前挑战
Customer Segmentation and Classification Dataset在构建过程中面临多个挑战。首先,数据集涉及的领域问题包括客户行为分析和销售交易模式的识别,这些都需要复杂的模型来处理。其次,构建过程中遇到的挑战包括数据的高维性和噪声,这要求采用高效的算法如Apriori和FP-Growth来提取频繁项集,以及使用ARIMA和Triple Exponential Smoothing等时间序列模型来准确预测销售趋势。此外,数据集的多样性和复杂性也增加了模型训练和验证的难度。
常用场景
经典使用场景
在客户细分与分类数据集中,经典的使用场景之一是通过销售交易数据进行客户行为分析。具体而言,该数据集利用聚类算法如K-Means和层次聚类(Agglomerative Clustering)来识别和划分不同的客户群体,从而揭示购买模式和趋势。此外,分类算法如决策树和逻辑回归被应用于预测客户未来的购买行为,为营销策略的优化提供数据支持。
解决学术问题
该数据集解决了多个学术研究中的关键问题,特别是在客户行为分析和市场细分领域。通过应用先进的机器学习模型,如时间序列分析(ARIMA)和关联规则挖掘(Apriori),研究者能够更精确地预测销售趋势和识别频繁的购买模式。这不仅提升了学术研究的质量,还为实际应用中的营销和销售策略提供了科学依据。
实际应用
在实际应用中,客户细分与分类数据集被广泛用于零售和电子商务行业。通过分析客户的购买历史和行为模式,企业能够制定个性化的营销策略,提高客户满意度和忠诚度。此外,该数据集还被用于优化库存管理和供应链决策,确保产品供应与市场需求的高度匹配,从而提升整体运营效率。
数据集最近研究
最新研究方向
在客户细分与分类领域,最新的研究方向集中在利用先进的机器学习模型来深入挖掘客户行为数据,以实现更精准的市场营销策略。例如,通过应用关联模型如Apriori和FP-Growth,研究者能够识别出频繁购买的商品组合,从而优化产品推荐系统。此外,时间序列模型如ARIMA和三重指数平滑法被广泛用于预测销售趋势,帮助企业提前调整库存和营销计划。在分类和聚类方面,K-Means和决策树等算法被用来划分客户群体,揭示不同群体的购买偏好,进而制定个性化的营销策略。这些研究不仅提升了数据分析的精确度,也为企业提供了科学依据,以应对市场变化和客户需求的多样性。
以上内容由遇见数据集搜集并总结生成



