E-Commerce Dataset|电子商务数据集|数据集结构数据集
收藏数据集概述
该数据集由五个相互关联的表格组成,每个表格包含关于客户、交易、分支机构和商家的关键信息。具体描述如下:
表格结构
-
Customers Table
customer_id
: 客户的唯一标识符。join_date
: 客户加入的日期。city_id
: 客户所在城市的ID。gender_id
: 客户性别的ID。
-
Genders Table
gender_id
: 性别的唯一标识符。gender_name
: 性别的名称(例如,男性、女性)。
-
Cities Table
city_id
: 城市的唯一标识符。city_name
: 城市的名称。
-
Transactions Table
transaction_id
: 优惠券交易的唯一标识符。customer_id
: 执行交易的客户的ID。transaction_date
: 优惠券被领取的日期。transaction_status
: 优惠券的状态(例如,已领取、已使用)。coupon_name
: 优惠券的名称。burn_date
: 优惠券被使用的日期。branch_id
: 优惠券被使用的分支机构的ID。
-
Branches Table
branch_id
: 分支机构的唯一标识符。merchant_id
: 拥有该分支机构的商家的ID。
-
Merchants Table
merchant_id
: 商家的唯一标识符。merchant_name
: 商家的名称。
数据处理流程
- 导入重要库并加载数据集。
- 加载数据。
- 将
transaction_date
转换为datetime对象。 - 计算每个客户的最近交易日期(recency)。
- 计算每个客户的交易频率(frequency)。
- 聚合优惠券的领取和使用数量。
- 合并所有数据到一个DataFrame中。
- 处理缺失值。
- 特征选择,选择以下特征:
recency
,transaction_count
,coupons_claimed
,coupons_burned
,city_id
,gender_id
。 - 特征缩放以确保特征具有相似的尺度。
- 使用肘部法确定最佳的聚类数量,最佳聚类数为3。
- 使用KMeans聚类。
- 打印惯性(Inertia)和轮廓分数(Silhouette score)。
- 使用seaborn和matplotlib库绘制散点图矩阵,比较基于
recency
,transaction_count
,coupons_claimed
,coupons_burned
的三个聚类。 - 进行细分分析并提出建议。
- 使用Plotly创建客户聚类的3D散点图,并使用PCA进行降维。
结论与建议
1. Cluster 0
- Recency: 该簇的客户具有较高的recency值(他们已经有一段时间没有访问商店)。
- Transaction Count: 这些客户的交易数量较低。
- Coupons Claimed: 尽管交易数量低,但该组客户领取了一些优惠券,尽管不如其他簇活跃。
- Coupons Burned: 使用的优惠券数量较低。
- Behavioral Insight: 该簇的客户参与度较低,可能面临停止在商店购物习惯的风险。
- Recommendation: 应发送有吸引力和高价值的优惠券以重新吸引他们,提供个性化、限时优惠以鼓励他们返回。
2. Cluster 1
- Recency: 这些客户的recency值较低至中等(他们经常访问商店)。
- Transaction Count: 他们的交易数量高于Cluster 0,但不如Cluster 2高。
- Coupons Claimed: 该组客户领取了相当数量的优惠券。
- Coupons Burned: 使用的优惠券数量中等,但低于Cluster 2。
- Behavioral Insight: 该簇的客户参与度中等,购物频率较高,使用优惠券较为活跃。
- Recommendation: 应通过捆绑折扣或提供他们最近未购买的商品的优惠券来增加购物篮大小,以鼓励多样化购买。
3. Cluster 2
- Recency: 该组的recency值最低(他们频繁访问商店)。
- Transaction Count: 这些客户的交易数量最高。
- Coupons Claimed: 该组客户领取了最多的优惠券。
- Coupons Burned: 他们使用的优惠券数量也最高,可能是因为他们收到的优惠券多于他们能使用的,或者他们不需要所有的优惠券。
- Behavioral Insight: 该簇的客户是最忠诚和最活跃的购物者,但高数量的使用优惠券可能表明他们被优惠券淹没,或者收到的优惠券可能不总是相关的。
- Recommendation: 应通过优化他们收到的优惠券类型来最大化该组的价值,避免优惠券疲劳,提供基于他们过去购买行为的优惠券,并提供忠诚奖励或独家福利。

海天瑞声-超大规模中文多领域高质量多轮对话语料库
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。
魔搭社区 收录
diegopdlv5/test_dataset_0049c
该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。
hugging_face 收录
28cff911-c75a-4991-86cd-cc371a930b0f
This research investigated the behaviour of the wild-type roots of rapeseed (growth morphology gravitropical sensitivity) in microgravity.
DataCite Commons 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录