Online Retail Dataset
收藏github2024-08-29 更新2024-08-31 收录
下载链接:
https://github.com/isidharthrai/Online-Retail-Dataset-Clustering-using-K-Means
下载链接
链接失效反馈官方服务:
资源简介:
Online Retail数据集是一个跨国数据集,包含了一家位于英国的非实体在线零售公司在2010年12月1日至2011年12月9日之间的所有交易记录。该公司销售各种场合的独特礼品,许多客户是批发商。该数据集包含541909条记录和8个特征,包括发票号码、库存代码、产品描述、数量、发票日期、单价、客户ID和国家。
The Online Retail Dataset is a cross-national dataset containing all transaction records of a UK-based non-store online retail company from December 1, 2010 to December 9, 2011. The company sells unique gifts for various occasions, and many of its customers are wholesalers. This dataset includes 541,909 records and 8 features, namely invoice number, stock code, product description, quantity, invoice date, unit price, customer ID, and country.
创建时间:
2024-08-08
原始信息汇总
在线零售数据集聚类分析
数据集描述
该在线零售数据集是一个跨国数据集,包含2010年12月1日至2011年9月12日期间英国一家非实体在线零售公司的所有交易记录。该公司销售各种场合的独特礼品,许多客户是批发商。数据集包含541909条记录和8个特征,包括发票号、库存代码、产品描述、数量、发票日期、单价、客户ID和国家。
方法
在本项目中,我们应用K-Means聚类算法根据客户的购买行为对其进行细分。我们使用了以下特征:
- 数量
- 单价
- 发票日期(转换为数值)
执行步骤
- 数据预处理:我们通过处理缺失值并将日期特征转换为数值来清洗和预处理数据。
- 特征缩放:我们使用StandardScaler对特征进行缩放,以确保每个特征的重要性相等。
- K-Means聚类:我们应用K-Means聚类算法,通过改变聚类数(K)来识别最佳聚类数。
- 轮廓分析:我们进行轮廓分析以评估聚类的质量并确定最佳聚类数。
结果
我们的结果显示,最佳聚类数为5,轮廓分数为0.6。这些聚类具有以下特征:
- 聚类1:高价值客户,频繁购买
- 聚类2:中价值客户,偶尔购买
- 聚类3:低价值客户,不频繁购买
- 聚类4:批发客户,批量购买
- 聚类5:国际客户,多样化的购买行为
代码
本项目的代码使用Python编写,并使用了以下库:
- Pandas用于数据操作
- Scikit-learn用于K-Means聚类和轮廓分析
- Matplotlib和Seaborn用于可视化
结论
本项目展示了K-Means聚类算法和轮廓分析在在线零售数据集上的应用。结果提供了有关客户购买行为的宝贵见解,并可用于制定有针对性的营销策略。
搜集汇总
数据集介绍

构建方式
该数据集涵盖了英国一家非实体在线零售公司从2010年12月1日至2011年9月12日间的所有交易记录,共计541,909条实例。其构建基于公司销售的全天候礼品,且多数客户为批发商。数据集包含八个特征,分别是发票编号、库存代码、产品描述、数量、发票日期、单价、客户ID和销售国家。通过详尽的交易记录,数据集旨在提供一个全面的客户购买行为分析基础。
特点
该数据集的显著特点在于其跨国性和多维度特征。首先,数据集跨越多个国家,反映了不同地域的购买习惯。其次,数据集包含多种特征,如数量、单价和发票日期,这些特征为深入分析客户购买行为提供了丰富的信息。此外,数据集的高质量预处理和标准化特征使其适用于多种机器学习算法,特别是聚类分析。
使用方法
使用该数据集时,首先需进行数据预处理,包括处理缺失值和将日期特征转换为数值形式。随后,通过特征缩放确保各特征的权重均衡。接着,应用K-Means聚类算法,并结合Silhouette分析评估聚类效果,以确定最佳聚类数。最终,通过可视化工具如Matplotlib和Seaborn展示分析结果,为制定精准的市场营销策略提供依据。
背景与挑战
背景概述
在线零售数据集(Online Retail Dataset)是一个跨国数据集,记录了2010年12月1日至2011年12月9日期间,一家英国非实体在线零售公司的所有交易。该公司的主要业务是销售各种场合的独特礼品,客户群体中包括大量批发商。数据集包含541,909条记录和8个特征,如发票号、库存代码、产品描述、数量、发票日期、单价、客户ID和国家。该数据集由英国的研究机构创建,旨在通过分析客户的购买行为,为在线零售行业提供深入的市场洞察和客户细分策略。
当前挑战
在线零售数据集在构建和应用过程中面临多项挑战。首先,数据预处理阶段需要处理大量缺失值,并确保日期特征的数值转换准确无误。其次,特征缩放是确保K-Means聚类算法有效性的关键步骤,需通过StandardScaler确保各特征的权重均衡。此外,确定最佳聚类数量是另一大挑战,需借助Silhouette分析评估聚类质量,以识别最优的聚类数量。最后,数据集的跨国性质增加了分析复杂性,需考虑不同国家和地区的购买行为差异,以制定有效的市场策略。
常用场景
经典使用场景
在线零售数据集(Online Retail Dataset)的经典使用场景主要集中在客户细分和行为分析领域。通过应用K-Means聚类算法,研究者能够根据客户的购买行为特征,如购买数量、单价和购买日期,将客户划分为不同的群体。这种细分有助于企业识别高价值客户、中价值客户、低价值客户、批发客户和国际客户,从而制定更为精准的市场营销策略。
实际应用
在线零售数据集的实际应用场景广泛,主要体现在市场营销和客户关系管理中。企业可以利用该数据集进行客户细分,识别不同价值层次的客户群体,从而实施差异化的营销策略。例如,针对高价值客户提供个性化服务,对批发客户提供批量折扣,以及对国际客户进行跨文化营销。这些策略有助于提升客户满意度和忠诚度,进而提高企业的市场竞争力。
衍生相关工作
在线零售数据集的广泛应用催生了多项相关研究工作。例如,研究者利用该数据集进行客户生命周期价值(CLV)预测,通过分析客户的购买历史和行为模式,预测其未来的购买潜力。此外,还有研究探讨了如何结合其他数据源(如社交媒体数据)来进一步丰富客户画像,提升市场策略的精准度。这些衍生工作不仅深化了对客户行为的理解,也为商业智能领域的发展提供了新的思路。
以上内容由遇见数据集搜集并总结生成



