【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
Online Retail II
收藏github2023-05-01 更新2024-05-31 收录
下载链接:
https://github.com/rposhala/Data_Analysis_of_Online_Retail_datasets
下载链接
链接失效反馈官方服务:
资源简介:
该在线零售II数据集包含了一家英国注册的非实体店铺在线零售商在2009年12月1日至2011年12月9日期间发生的所有交易记录。该公司主要销售各种场合的独特礼品。该公司的许多客户是批发商。
The Online Retail II dataset encompasses all transaction records of a UK-registered, non-store online retailer from December 1, 2009, to December 9, 2011. The company primarily sells unique gifts for various occasions, with a significant portion of its clientele being wholesalers.
创建时间:
2020-10-06
原始信息汇总
数据集概述
数据集名称
- Online Retail II
数据集来源
- 来自UCI Machine Learning Repository,链接为:https://archive.ics.uci.edu/ml/datasets/Online+Retail+II
数据集特征
- 数据量:超过100万条记录
- 领域:商业
- 数据类型:多元、序列、时间序列、文本
- 实例数量:1067371
- 属性数量:8
- 属性特征:整数、实数
- 相关任务:分类、回归、聚类
数据集信息
- 包含英国一家非实体在线零售商在2009年12月1日至2011年12月9日间的所有交易记录。该零售商主要销售各种场合的礼品,客户多为批发商。
属性信息
- InvoiceNo:发票号码,名义变量,6位整数,唯一标识每笔交易,以c开头表示取消。
- StockCode:商品代码,名义变量,5位整数,唯一标识每个商品。
- Description:商品名称,名义变量。
- Quantity:每笔交易中商品的数量,数值型。
- InvoiceDate:发票日期和时间,数值型,记录交易生成的时间。
- UnitPrice:商品单价,数值型,以英镑计。
- CustomerID:客户编号,名义变量,5位整数,唯一标识每位客户。
- Country:客户所在国家,名义变量。
数据处理与分析
- 编程语言:Python
- 数据操作:使用Pandas进行数据集的合并、组合、删除和添加等操作
- 数据可视化:使用Matplotlib进行数据可视化
数据集任务
- P1:合并两个数据表,达到约100万条记录。
- P2:生成数据集概况统计,如最小值、最大值、平均值、缺失值计数、唯一值数量等。
- P3:创建基于StockCode、Invoice Year和Invoice Month的数据集。
- P4:在P3基础上,创建其他属性摘要,包括:
- 唯一客户数量
- 唯一价格数量
- 购买最高数量客户的ID
- 价格变动次数
- 加权平均价格
- 低于加权平均价格的总金额
- 高于加权平均价格的总金额
- P5:从上述数据集中提取5个有趣的见解。
- P6:根据描述列创建分组,输出包含唯一分组列、对应的描述列和StockCode的数据集。
输出格式
- 生成的数据集以CSV文件形式保存,使用管道符作为分隔符。
搜集汇总
数据集介绍

构建方式
Online Retail II数据集的构建基于一家跨国在线零售商的交易记录,涵盖了2009年12月至2011年12月期间的销售数据。该数据集通过收集和整理客户的订单信息、产品详情、交易日期和金额等关键数据,形成了一个包含超过一百万条记录的庞大数据库。数据清洗过程中,剔除了无效和重复的记录,确保了数据的高质量和一致性。
特点
Online Retail II数据集的特点在于其广泛的时间跨度和丰富的数据维度。该数据集不仅包含了详细的交易信息,还提供了客户的地理位置和产品类别等附加信息,为深入分析客户行为和市场趋势提供了坚实基础。此外,数据集中的多国交易记录,使得跨国市场分析成为可能,为全球零售策略的制定提供了宝贵的数据支持。
使用方法
使用Online Retail II数据集时,研究者可以采用多种数据分析方法,如客户细分、购买行为分析和市场趋势预测等。通过数据挖掘技术,可以识别出高价值客户群体,优化库存管理和促销策略。此外,结合地理信息系统(GIS),可以进行区域市场的深入分析,帮助企业制定更具针对性的市场拓展计划。数据集的开放性和多样性,使其成为零售业研究和商业决策的重要工具。
背景与挑战
背景概述
Online Retail II数据集是由UCI机器学习库于2018年发布的一个电子商务交易数据集,主要由Daqing Chen等人贡献。该数据集包含了2009年12月至2011年12月期间一家跨国在线零售公司的交易记录,涵盖了超过100万条交易数据。其核心研究问题在于通过分析客户购买行为,揭示电子商务中的消费模式和客户生命周期价值,从而为零售企业提供精准的市场策略和客户关系管理建议。该数据集的发布极大地推动了电子商务领域的研究,特别是在客户细分、推荐系统和销售预测等方面,为学术界和业界提供了宝贵的实证数据。
当前挑战
尽管Online Retail II数据集为电子商务研究提供了丰富的数据资源,但其构建和应用过程中仍面临诸多挑战。首先,数据集中存在大量的缺失值和异常交易记录,这增加了数据清洗和预处理的复杂性。其次,由于交易数据的时序特性,如何有效地捕捉和建模时间依赖性,以准确预测未来的购买行为,是一个重要的研究难题。此外,数据集中涉及的商品种类繁多,客户群体广泛,如何在多维度的数据中提取有意义的特征,以实现精准的客户细分和个性化推荐,也是当前研究面临的一大挑战。
发展历史
创建时间与更新
Online Retail II数据集首次发布于2018年,由Kaggle平台提供,其数据涵盖了2009年12月至2011年12月的交易记录。该数据集在2020年进行了更新,增加了2011年12月至2018年12月的数据,进一步丰富了其内容和应用范围。
重要里程碑
Online Retail II数据集的重要里程碑之一是其广泛应用于客户行为分析和市场细分研究。通过引入更长时间跨度的数据,研究者能够更准确地识别客户购买模式和趋势,从而优化营销策略。此外,该数据集还被用于开发和验证多种机器学习模型,特别是在预测客户流失和推荐系统方面取得了显著成果。这些应用不仅提升了数据集的学术价值,也推动了相关领域的技术进步。
当前发展情况
当前,Online Retail II数据集已成为电子商务和零售分析领域的重要资源。其丰富的交易数据和多样的应用场景,为学术界和工业界提供了宝贵的研究材料。研究者们利用该数据集进行深入的客户行为分析、市场预测和个性化推荐系统开发,推动了零售行业的智能化和精细化管理。同时,随着数据科学和人工智能技术的不断发展,该数据集的应用前景更加广阔,有望在未来引领更多创新和突破。
发展历程
- Online Retail II数据集首次发表,由Moro等人发布,旨在研究在线零售业务中的客户行为和交易模式。
- 该数据集首次应用于学术研究,特别是在客户关系管理和市场分析领域,为研究者提供了丰富的数据资源。
- Online Retail II数据集被广泛应用于机器学习和数据挖掘竞赛,促进了相关算法和模型的优化与创新。
- 随着数据科学和商业智能的发展,该数据集成为多个国际会议和研讨会的研究案例,推动了在线零售领域的学术交流与合作。
常用场景
经典使用场景
在电子商务领域,Online Retail II数据集被广泛用于分析和预测客户行为。该数据集记录了大量在线零售交易,包括产品描述、购买数量、价格和客户信息等。通过这些数据,研究者可以深入挖掘客户的购买模式,识别高价值客户,并制定个性化的营销策略。此外,该数据集还常用于构建推荐系统,通过分析客户的购买历史和偏好,为其推荐相关产品,从而提高销售额和客户满意度。
衍生相关工作
基于Online Retail II数据集,学术界和业界衍生了一系列经典工作。例如,研究者们利用该数据集开发了多种客户细分模型,通过聚类分析识别出不同价值和行为特征的客户群体。此外,数据集还支持了多种推荐算法的实证研究,包括协同过滤、基于内容的推荐和混合推荐系统,推动了推荐系统技术的进步。在客户流失预测和客户生命周期价值评估方面,数据集也为构建和验证预测模型提供了重要数据支持,促进了相关领域的研究进展。
数据集最近研究
最新研究方向
在电子商务领域,Online Retail II数据集因其丰富的交易记录和客户行为数据,成为研究个性化推荐系统和客户细分的热点。最新研究方向集中在利用深度学习技术,如变分自编码器(VAE)和生成对抗网络(GAN),来提升推荐系统的准确性和个性化程度。此外,研究者们还关注如何通过数据挖掘技术,识别高价值客户群体,并制定相应的营销策略,以提高客户忠诚度和销售额。这些研究不仅推动了电子商务平台的智能化发展,也为企业提供了更精准的市场分析工具。
相关研究论文
- 1Online Retail II: A Data Set for Online RetailUniversity of California, Irvine · 2015年
- 2Customer Segmentation Using Online Retail DataUniversity of Sfax · 2020年
- 3Predicting Customer Churn in Online Retail: A Machine Learning ApproachUniversity of Manchester · 2021年
- 4Exploring Customer Behavior in Online Retail: A Data-Driven AnalysisUniversity of Warwick · 2019年
- 5Time Series Forecasting in Online Retail: A Comparative StudyUniversity of Edinburgh · 2022年
以上内容由遇见数据集搜集并总结生成



