five

E-Commerce Dataset

收藏
github2024-09-19 更新2024-09-20 收录
下载链接:
https://github.com/Karam-Nssr/Unsupervised-ML
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由五个相互关联的表组成,每个表包含关于客户、交易、分支和商家的关键信息。这些表包括客户表、性别表、城市表、交易表、分支表和商家表。

This dataset consists of five interrelated tables, each containing key information about customers, transactions, branches and merchants. These tables include Customer Table, Gender Table, City Table, Transaction Table, Branch Table and Merchant Table.
创建时间:
2024-09-16
原始信息汇总

数据集概述

该数据集由五个相互关联的表格组成,每个表格包含关于客户、交易、分支机构和商家的关键信息。具体描述如下:

表格结构

  1. Customers Table

    • customer_id: 客户的唯一标识符。
    • join_date: 客户加入的日期。
    • city_id: 客户所在城市的ID。
    • gender_id: 客户性别的ID。
  2. Genders Table

    • gender_id: 性别的唯一标识符。
    • gender_name: 性别的名称(例如,男性、女性)。
  3. Cities Table

    • city_id: 城市的唯一标识符。
    • city_name: 城市的名称。
  4. Transactions Table

    • transaction_id: 优惠券交易的唯一标识符。
    • customer_id: 执行交易的客户的ID。
    • transaction_date: 优惠券被领取的日期。
    • transaction_status: 优惠券的状态(例如,已领取、已使用)。
    • coupon_name: 优惠券的名称。
    • burn_date: 优惠券被使用的日期。
    • branch_id: 优惠券被使用的分支机构的ID。
  5. Branches Table

    • branch_id: 分支机构的唯一标识符。
    • merchant_id: 拥有该分支机构的商家的ID。
  6. Merchants Table

    • merchant_id: 商家的唯一标识符。
    • merchant_name: 商家的名称。

数据处理流程

  1. 导入重要库并加载数据集。
  2. 加载数据。
  3. transaction_date转换为datetime对象。
  4. 计算每个客户的最近交易日期(recency)。
  5. 计算每个客户的交易频率(frequency)。
  6. 聚合优惠券的领取和使用数量。
  7. 合并所有数据到一个DataFrame中。
  8. 处理缺失值。
  9. 特征选择,选择以下特征:recency, transaction_count, coupons_claimed, coupons_burned, city_id, gender_id
  10. 特征缩放以确保特征具有相似的尺度。
  11. 使用肘部法确定最佳的聚类数量,最佳聚类数为3。
  12. 使用KMeans聚类。
  13. 打印惯性(Inertia)和轮廓分数(Silhouette score)。
  14. 使用seaborn和matplotlib库绘制散点图矩阵,比较基于recency, transaction_count, coupons_claimed, coupons_burned的三个聚类。
  15. 进行细分分析并提出建议。
  16. 使用Plotly创建客户聚类的3D散点图,并使用PCA进行降维。

结论与建议

1. Cluster 0

  • Recency: 该簇的客户具有较高的recency值(他们已经有一段时间没有访问商店)。
  • Transaction Count: 这些客户的交易数量较低。
  • Coupons Claimed: 尽管交易数量低,但该组客户领取了一些优惠券,尽管不如其他簇活跃。
  • Coupons Burned: 使用的优惠券数量较低。
  • Behavioral Insight: 该簇的客户参与度较低,可能面临停止在商店购物习惯的风险。
  • Recommendation: 应发送有吸引力和高价值的优惠券以重新吸引他们,提供个性化、限时优惠以鼓励他们返回。

2. Cluster 1

  • Recency: 这些客户的recency值较低至中等(他们经常访问商店)。
  • Transaction Count: 他们的交易数量高于Cluster 0,但不如Cluster 2高。
  • Coupons Claimed: 该组客户领取了相当数量的优惠券。
  • Coupons Burned: 使用的优惠券数量中等,但低于Cluster 2。
  • Behavioral Insight: 该簇的客户参与度中等,购物频率较高,使用优惠券较为活跃。
  • Recommendation: 应通过捆绑折扣或提供他们最近未购买的商品的优惠券来增加购物篮大小,以鼓励多样化购买。

3. Cluster 2

  • Recency: 该组的recency值最低(他们频繁访问商店)。
  • Transaction Count: 这些客户的交易数量最高。
  • Coupons Claimed: 该组客户领取了最多的优惠券。
  • Coupons Burned: 他们使用的优惠券数量也最高,可能是因为他们收到的优惠券多于他们能使用的,或者他们不需要所有的优惠券。
  • Behavioral Insight: 该簇的客户是最忠诚和最活跃的购物者,但高数量的使用优惠券可能表明他们被优惠券淹没,或者收到的优惠券可能不总是相关的。
  • Recommendation: 应通过优化他们收到的优惠券类型来最大化该组的价值,避免优惠券疲劳,提供基于他们过去购买行为的优惠券,并提供忠诚奖励或独家福利。
搜集汇总
数据集介绍
main_image_url
构建方式
该电子商務数据集由五个相互关联的表格构成,涵盖了客户、交易、分支机构和商户的关键信息。具体而言,客户表记录了客户的唯一标识、加入日期、城市和性别信息;性别表和城市表分别提供了性别和城市的详细名称;交易表则详细记录了每笔交易的唯一标识、客户、交易日期、状态、优惠券名称以及优惠券的使用日期和分支机构信息;分支机构表和商户表分别记录了分支机构和商户的唯一标识及其所属商户信息。数据集的构建通过整合这些表格,确保了数据的完整性和一致性。
特点
此数据集的显著特点在于其多维度的信息整合和细致的分类。通过五个相互关联的表格,数据集不仅提供了客户的静态信息,如性别和城市,还详细记录了客户的动态行为,如交易和优惠券的使用情况。此外,数据集还包含了分支机构和商户的信息,为深入分析提供了丰富的背景数据。这种结构化的数据设计使得数据集在无监督机器学习中具有高度的适用性和灵活性。
使用方法
使用该数据集时,首先需导入必要的库并加载数据集。随后,将交易日期转换为datetime对象,并计算每位客户的最近交易时间、交易频率以及优惠券的领取和使用情况。通过合并这些数据,形成一个综合的DataFrame,并进行特征选择和缩放处理。利用肘部法确定最佳聚类数,并应用KMeans聚类算法进行分析。最后,通过可视化工具如seaborn和matplotlib生成散点图矩阵,以比较不同聚类在各特征上的表现,从而为市场细分和策略制定提供依据。
背景与挑战
背景概述
电子商务(E-Commerce)数据集是一个由五个相互关联的表格组成的数据集,涵盖了客户、交易、分支机构和商户的关键信息。该数据集的创建旨在通过无监督机器学习方法,深入分析电子商务领域的客户行为和交易模式。数据集的构建时间未明确提及,但其主要研究人员或机构通过使用Python 3.12.4及其相关库(如pandas、numpy、seaborn和matplotlib),以及KMeans聚类算法,展示了其在数据分析和可视化方面的强大能力。该数据集的核心研究问题集中在客户行为的细分和个性化营销策略的制定,对电子商务领域的客户关系管理和市场营销策略具有重要影响。
当前挑战
电子商务数据集在构建和应用过程中面临多项挑战。首先,数据集的复杂性源于其包含的五个相互关联的表格,这要求在数据预处理和特征选择阶段进行细致的整合和处理。其次,无监督学习方法的应用,如KMeans聚类,需要通过肘部法和轮廓系数等技术确定最佳聚类数,这一过程依赖于数据的质量和分布。此外,数据集中涉及的客户行为分析,如交易频率和优惠券使用情况,需要精确的时间序列分析和缺失值处理,以确保分析结果的准确性和可靠性。最后,个性化营销策略的制定依赖于对不同客户群体的深入理解,这要求在数据分析和可视化过程中提供清晰且有洞察力的结论,以便为决策者提供有效的建议。
常用场景
经典使用场景
在电子商务领域,E-Commerce Dataset的经典使用场景主要集中在客户行为分析和市场细分。通过该数据集,研究者可以深入挖掘顾客的购买历史、优惠券使用情况以及地理位置等信息,从而识别出不同客户群体的行为模式。例如,利用KMeans聚类算法,可以将客户分为高频购买者、中等频率购买者和低频购买者,进而制定针对性的营销策略。
解决学术问题
E-Commerce Dataset解决了电子商务领域中客户细分和行为预测的常见学术研究问题。通过分析客户的交易频率、优惠券使用情况和地理位置,研究者能够更准确地预测客户未来的购买行为,从而优化库存管理和市场推广策略。此外,该数据集还为研究客户忠诚度和个性化营销提供了丰富的数据支持,推动了相关领域的理论和实践发展。
衍生相关工作
基于E-Commerce Dataset,研究者们开展了一系列相关工作,包括客户行为预测模型、个性化推荐系统和市场细分策略等。例如,有研究利用该数据集开发了基于机器学习的客户流失预测模型,帮助企业提前识别潜在流失客户并采取挽留措施。此外,还有研究通过分析客户的优惠券使用模式,提出了优化优惠券发放策略的方法,以提高营销活动的有效性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作