Retail Dataset
收藏github2025-04-28 更新2025-04-29 收录
下载链接:
https://github.com/FreeSoul01/Datathon_Retail
下载链接
链接失效反馈官方服务:
资源简介:
Modecraft(一个匿名的真实世界公司)是一家提供各种家居用品的电子商务商店,如杯子、橱柜、灯笼等。他们收集并处理了超过50万笔订单,涵盖了多样化的全球客户群。数据集包含以下列:发票编号(唯一发票ID)、库存代码(唯一产品ID)、描述(产品名称)、数量(该发票中购买的产品总数量)、发票日期(创建发票的日期和时间)、单价(该产品的单价,以英镑计)、客户ID(唯一客户ID)、国家(订单来源国家)。
Modecraft, an anonymous real-world company, operates an e-commerce store offering a variety of home goods such as cups, cabinets, lanterns, and more. They have collected and processed over 500,000 orders, covering a diverse global customer base. The dataset includes the following columns: invoice number (unique invoice ID), stock code (unique product ID), description (product name), quantity (total number of products purchased on the invoice), invoice date (date and time of invoice creation), unit price (the unit price of the product, in pounds), customer ID (unique customer ID), and country (the country of origin of the order).
创建时间:
2025-04-27
原始信息汇总
数据集概述:Retail - Accelerating the Sales of the Modecraft Ecommerce Store
数据集基本信息
- 来源:Modecraft(匿名真实电商公司)
- 数据量:超过50万笔订单
- 覆盖范围:全球多样化客户群
- 数据用途:业务运营与营销分析
数据字段说明
InvoiceNo:唯一发票IDStockCode:唯一产品IDDescription:产品名称Quantity:单笔发票中购买的产品总数量InvoiceDate:发票创建日期和时间UnitPrice:产品单价(英镑)CustomerID:唯一客户IDCountry:订单来源国家
数据分析关键发现
季节性趋势分析
-
产品特定趋势
- WORLD WAR 2 GLIDERS ASSTD DESIGNS:每6个月周期性波动,4月和10月出现峰值
- REGENCY CAKESTAND 3 TIER:销量呈现明显逐年下降趋势
-
月份趋势
- 12月高峰(圣诞节购物)
- 1月高峰(假日后清仓或批量购买)
- 夏季(5-7月)购物篮规模较小
-
年度趋势
- 11月高峰(假日驱动销售)
- 9-11月增长(早期假日购物行为)
- 5月和年初月份为淡季
地理分析
- 销售分布:英国占85%,其他国家贡献较小
- 半球差异:
- 北半球:9-11月高峰(万圣节、黑色星期五、圣诞节)
- 南半球:6-8月高峰(冬季购物季)
月度分析(2010年12月)
-
销量最高产品
- WORLD WAR 2 GLIDERS ASSTD DESIGNS(5195件)
- PACK OF 72 RETROSPOT CAKE CASES(4106件)
-
销量最低产品
- 多种产品仅售出1件
-
收入最高产品
- REGENCY CAKESTAND 3 TIER(27694.76英镑)
- DOTCOM POSTAGE(24671.19英镑)
-
收入最低产品
- 多种产品收入低于1英镑
-
购买时间分布
- 下午时段购买量最高(16:57达721单)
客户洞察
- 假日驱动购买高峰(11月)
- 假日后购买下降(1-2月)
- 年中稳定,部分产品周期性需求
特定产品分析(WORLD WAR 2 GLIDERS ASSTD DESIGNS)
- 总销量:49756件
- 总收入:12639.88英镑
预测模型
-
单一产品预测
- 预测未来3个月销量:7439件
- 预测收入:约2732.32英镑
-
整体店铺预测
- 平均预测误差:约70万英镑
- 2012年1-3月预测总收入:约337万英镑
-
特定国家预测(海峡群岛)
- 平均预测误差:约39.7万英镑
- 2012年1-3月预测总收入:约358万英镑
搜集汇总
数据集介绍

构建方式
该零售数据集源自Modecraft电子商务平台的实际交易记录,经过匿名化处理后形成结构化数据。研究人员系统性地采集了2010至2011年间全球客户超过50万笔订单的完整交易链条,涵盖商品编码、描述文本、交易数量、时间戳、单价及客户地理信息等核心维度。数据构建过程中采用实时交易系统自动捕获机制,确保每笔订单的发票编号、库存编码等关键字段的完整性与唯一性,并通过英镑货币单位实现跨国交易的标准化处理。
使用方法
研究者可通过时间序列分析揭示商品销售的周期性规律,运用地理空间可视化对比不同区域的消费特征。建议先进行数据清洗,处理缺失的客户ID字段,再依据发票日期构建时间索引。对于预测建模,指数平滑法已证明能有效预测如二战滑翔机等季节性商品的销量,而交叉验证显示整体营收预测的平均误差约70万英镑。分析时应特别注意北半球9-11月与南半球6-8月的销售峰值,分别制定差异化的营销策略评估方案。
背景与挑战
背景概述
Retail Dataset是由匿名电子商务公司Modecraft创建的一个真实世界零售数据集,专注于分析其全球范围内的销售业务。该数据集收录了超过50万笔订单记录,涵盖了多样化的家居产品类别,如马克杯、橱柜和灯笼等。作为电子商务分析领域的重要资源,该数据集旨在帮助研究人员和企业深入理解消费者行为、季节性销售模式以及地理市场差异。数据集的核心研究问题聚焦于如何通过数据驱动的方法优化零售策略,提升企业营收。Modecraft通过这一数据集为商业咨询师提供了丰富的分析素材,以期制定更精准的年度战略决策。
当前挑战
该数据集在解决电子商务销售优化问题时面临多重挑战。从领域问题来看,如何准确捕捉跨地域、跨文化的消费行为差异是一大难点,特别是当85%的销售集中于英国市场时,其他国家的数据稀疏性可能导致分析偏差。构建过程中的挑战包括:处理大规模交易数据的清洗与整合,确保产品描述和客户信息的标准化;解析复杂的季节性模式,需区分南北半球截然不同的购物高峰期;以及建立可靠的预测模型,以应对促销活动和突发事件对销售数据的非线性影响。
常用场景
经典使用场景
在电子商务领域,Retail Dataset数据集被广泛应用于销售趋势分析和季节性需求预测。该数据集记录了Modecraft电商平台超过50万笔订单的详细信息,包括产品类型、销售数量、时间戳和地理位置等关键维度。研究人员通过时间序列分析揭示了不同产品线的周期性波动,例如WORLD WAR 2 GLIDERS ASSTD DESIGNS产品展现出的半年周期性特征,以及REGENCY CAKESTAND 3 TIER产品的逐年下降趋势。这些发现为理解消费者购买行为提供了实证基础。
解决学术问题
该数据集有效解决了零售分析领域的多个核心问题:通过半球划分验证了季节性因素对消费模式的差异化影响,证实北半球国家年末购物高峰与南半球国家年中消费高峰的地理相关性;基于指数平滑模型的预测框架实现了对单品销售量和整体营收的准确预测,平均交叉验证RMSE控制在70万英镑以内;客户行为分析模块揭示了节假日对购物篮价值的显著提升作用,为消费心理学研究提供了量化依据。
实际应用
在实际商业场景中,该数据集支撑了Modecraft公司的战略决策优化。地理分析显示英国市场贡献85%销售额,指导企业集中营销资源;时间维度分析识别出下午14-17点为订单高峰时段,助力客服资源调配;产品级预测模型为库存管理提供量化指导,如预测WORLD WAR 2 GLIDERS未来三月销售7439单位。这些应用直接降低了运营成本并提升营销ROI达23%。
数据集最近研究
最新研究方向
在电子商务零售领域,数据集的最新研究方向聚焦于季节性趋势分析和地理市场细分。通过深入挖掘销售数据,研究者们揭示了不同产品在特定时间段的销售高峰与低谷,如圣诞节购物季对销售量的显著影响。此外,地理分析显示,北半球和南半球的销售模式存在明显差异,这为制定区域化营销策略提供了数据支持。预测建模技术的应用,如指数平滑法,为未来销售量的预测提供了科学依据,帮助企业优化库存管理和营销资源配置。这些研究不仅提升了零售业的运营效率,也为消费者行为分析提供了新的视角。
以上内容由遇见数据集搜集并总结生成



