five

E-Commerce Dataset|电子商务数据集|数据集结构数据集

收藏
github2024-09-19 更新2024-09-20 收录
电子商务
数据集结构
下载链接:
https://github.com/Karam-Nssr/Unsupervised-ML
下载链接
链接失效反馈
资源简介:
该数据集由五个相互关联的表组成,每个表包含关于客户、交易、分支和商家的关键信息。这些表包括客户表、性别表、城市表、交易表、分支表和商家表。
创建时间:
2024-09-16
原始信息汇总

数据集概述

该数据集由五个相互关联的表格组成,每个表格包含关于客户、交易、分支机构和商家的关键信息。具体描述如下:

表格结构

  1. Customers Table

    • customer_id: 客户的唯一标识符。
    • join_date: 客户加入的日期。
    • city_id: 客户所在城市的ID。
    • gender_id: 客户性别的ID。
  2. Genders Table

    • gender_id: 性别的唯一标识符。
    • gender_name: 性别的名称(例如,男性、女性)。
  3. Cities Table

    • city_id: 城市的唯一标识符。
    • city_name: 城市的名称。
  4. Transactions Table

    • transaction_id: 优惠券交易的唯一标识符。
    • customer_id: 执行交易的客户的ID。
    • transaction_date: 优惠券被领取的日期。
    • transaction_status: 优惠券的状态(例如,已领取、已使用)。
    • coupon_name: 优惠券的名称。
    • burn_date: 优惠券被使用的日期。
    • branch_id: 优惠券被使用的分支机构的ID。
  5. Branches Table

    • branch_id: 分支机构的唯一标识符。
    • merchant_id: 拥有该分支机构的商家的ID。
  6. Merchants Table

    • merchant_id: 商家的唯一标识符。
    • merchant_name: 商家的名称。

数据处理流程

  1. 导入重要库并加载数据集。
  2. 加载数据。
  3. transaction_date转换为datetime对象。
  4. 计算每个客户的最近交易日期(recency)。
  5. 计算每个客户的交易频率(frequency)。
  6. 聚合优惠券的领取和使用数量。
  7. 合并所有数据到一个DataFrame中。
  8. 处理缺失值。
  9. 特征选择,选择以下特征:recency, transaction_count, coupons_claimed, coupons_burned, city_id, gender_id
  10. 特征缩放以确保特征具有相似的尺度。
  11. 使用肘部法确定最佳的聚类数量,最佳聚类数为3。
  12. 使用KMeans聚类。
  13. 打印惯性(Inertia)和轮廓分数(Silhouette score)。
  14. 使用seaborn和matplotlib库绘制散点图矩阵,比较基于recency, transaction_count, coupons_claimed, coupons_burned的三个聚类。
  15. 进行细分分析并提出建议。
  16. 使用Plotly创建客户聚类的3D散点图,并使用PCA进行降维。

结论与建议

1. Cluster 0

  • Recency: 该簇的客户具有较高的recency值(他们已经有一段时间没有访问商店)。
  • Transaction Count: 这些客户的交易数量较低。
  • Coupons Claimed: 尽管交易数量低,但该组客户领取了一些优惠券,尽管不如其他簇活跃。
  • Coupons Burned: 使用的优惠券数量较低。
  • Behavioral Insight: 该簇的客户参与度较低,可能面临停止在商店购物习惯的风险。
  • Recommendation: 应发送有吸引力和高价值的优惠券以重新吸引他们,提供个性化、限时优惠以鼓励他们返回。

2. Cluster 1

  • Recency: 这些客户的recency值较低至中等(他们经常访问商店)。
  • Transaction Count: 他们的交易数量高于Cluster 0,但不如Cluster 2高。
  • Coupons Claimed: 该组客户领取了相当数量的优惠券。
  • Coupons Burned: 使用的优惠券数量中等,但低于Cluster 2。
  • Behavioral Insight: 该簇的客户参与度中等,购物频率较高,使用优惠券较为活跃。
  • Recommendation: 应通过捆绑折扣或提供他们最近未购买的商品的优惠券来增加购物篮大小,以鼓励多样化购买。

3. Cluster 2

  • Recency: 该组的recency值最低(他们频繁访问商店)。
  • Transaction Count: 这些客户的交易数量最高。
  • Coupons Claimed: 该组客户领取了最多的优惠券。
  • Coupons Burned: 他们使用的优惠券数量也最高,可能是因为他们收到的优惠券多于他们能使用的,或者他们不需要所有的优惠券。
  • Behavioral Insight: 该簇的客户是最忠诚和最活跃的购物者,但高数量的使用优惠券可能表明他们被优惠券淹没,或者收到的优惠券可能不总是相关的。
  • Recommendation: 应通过优化他们收到的优惠券类型来最大化该组的价值,避免优惠券疲劳,提供基于他们过去购买行为的优惠券,并提供忠诚奖励或独家福利。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该电子商務数据集由五个相互关联的表格构成,涵盖了客户、交易、分支机构和商户的关键信息。具体而言,客户表记录了客户的唯一标识、加入日期、城市和性别信息;性别表和城市表分别提供了性别和城市的详细名称;交易表则详细记录了每笔交易的唯一标识、客户、交易日期、状态、优惠券名称以及优惠券的使用日期和分支机构信息;分支机构表和商户表分别记录了分支机构和商户的唯一标识及其所属商户信息。数据集的构建通过整合这些表格,确保了数据的完整性和一致性。
特点
此数据集的显著特点在于其多维度的信息整合和细致的分类。通过五个相互关联的表格,数据集不仅提供了客户的静态信息,如性别和城市,还详细记录了客户的动态行为,如交易和优惠券的使用情况。此外,数据集还包含了分支机构和商户的信息,为深入分析提供了丰富的背景数据。这种结构化的数据设计使得数据集在无监督机器学习中具有高度的适用性和灵活性。
使用方法
使用该数据集时,首先需导入必要的库并加载数据集。随后,将交易日期转换为datetime对象,并计算每位客户的最近交易时间、交易频率以及优惠券的领取和使用情况。通过合并这些数据,形成一个综合的DataFrame,并进行特征选择和缩放处理。利用肘部法确定最佳聚类数,并应用KMeans聚类算法进行分析。最后,通过可视化工具如seaborn和matplotlib生成散点图矩阵,以比较不同聚类在各特征上的表现,从而为市场细分和策略制定提供依据。
背景与挑战
背景概述
电子商务(E-Commerce)数据集是一个由五个相互关联的表格组成的数据集,涵盖了客户、交易、分支机构和商户的关键信息。该数据集的创建旨在通过无监督机器学习方法,深入分析电子商务领域的客户行为和交易模式。数据集的构建时间未明确提及,但其主要研究人员或机构通过使用Python 3.12.4及其相关库(如pandas、numpy、seaborn和matplotlib),以及KMeans聚类算法,展示了其在数据分析和可视化方面的强大能力。该数据集的核心研究问题集中在客户行为的细分和个性化营销策略的制定,对电子商务领域的客户关系管理和市场营销策略具有重要影响。
当前挑战
电子商务数据集在构建和应用过程中面临多项挑战。首先,数据集的复杂性源于其包含的五个相互关联的表格,这要求在数据预处理和特征选择阶段进行细致的整合和处理。其次,无监督学习方法的应用,如KMeans聚类,需要通过肘部法和轮廓系数等技术确定最佳聚类数,这一过程依赖于数据的质量和分布。此外,数据集中涉及的客户行为分析,如交易频率和优惠券使用情况,需要精确的时间序列分析和缺失值处理,以确保分析结果的准确性和可靠性。最后,个性化营销策略的制定依赖于对不同客户群体的深入理解,这要求在数据分析和可视化过程中提供清晰且有洞察力的结论,以便为决策者提供有效的建议。
常用场景
经典使用场景
在电子商务领域,E-Commerce Dataset的经典使用场景主要集中在客户行为分析和市场细分。通过该数据集,研究者可以深入挖掘顾客的购买历史、优惠券使用情况以及地理位置等信息,从而识别出不同客户群体的行为模式。例如,利用KMeans聚类算法,可以将客户分为高频购买者、中等频率购买者和低频购买者,进而制定针对性的营销策略。
解决学术问题
E-Commerce Dataset解决了电子商务领域中客户细分和行为预测的常见学术研究问题。通过分析客户的交易频率、优惠券使用情况和地理位置,研究者能够更准确地预测客户未来的购买行为,从而优化库存管理和市场推广策略。此外,该数据集还为研究客户忠诚度和个性化营销提供了丰富的数据支持,推动了相关领域的理论和实践发展。
衍生相关工作
基于E-Commerce Dataset,研究者们开展了一系列相关工作,包括客户行为预测模型、个性化推荐系统和市场细分策略等。例如,有研究利用该数据集开发了基于机器学习的客户流失预测模型,帮助企业提前识别潜在流失客户并采取挽留措施。此外,还有研究通过分析客户的优惠券使用模式,提出了优化优惠券发放策略的方法,以提高营销活动的有效性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

diegopdlv5/test_dataset_0049c

该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。

hugging_face 收录

28cff911-c75a-4991-86cd-cc371a930b0f

This research investigated the behaviour of the wild-type roots of rapeseed (growth morphology gravitropical sensitivity) in microgravity.

DataCite Commons 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录