ecommerce-dataset
收藏github2025-07-26 更新2025-08-05 收录
下载链接:
https://github.com/recruit41/ecommerce-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个虚构的电子商务服装网站数据集。
This is a fictional e-commerce clothing website dataset.
创建时间:
2025-07-26
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称:虚构电子商务服装网站数据集
- 数据集类型:电子商务
数据文件及结构
1. distribution_centers.csv
- 描述:配送中心信息
- 字段:
id:配送中心唯一标识符name:配送中心名称latitude:配送中心纬度坐标longitude:配送中心经度坐标
2. inventory_items.csv
- 描述:库存物品信息
- 字段:
id:库存物品唯一标识符product_id:关联产品标识符created_at:库存物品创建时间戳sold_at:物品售出时间戳cost:库存物品成本product_category:关联产品类别product_name:关联产品名称product_brand:关联产品品牌product_retail_price:关联产品零售价格product_department:产品所属部门product_sku:产品SKUproduct_distribution_center_id:关联配送中心标识符
3. order_items.csv
- 描述:订单物品信息
- 字段:
id:订单物品唯一标识符order_id:关联订单标识符user_id:下单用户标识符product_id:关联产品标识符inventory_item_id:关联库存物品标识符status:订单物品状态created_at:订单物品创建时间戳shipped_at:订单物品发货时间戳delivered_at:订单物品交付时间戳returned_at:订单物品退货时间戳
4. orders.csv
- 描述:订单信息
- 字段:
order_id:订单唯一标识符user_id:下单用户标识符status:订单状态gender:用户性别信息created_at:订单创建时间戳returned_at:订单退货时间戳shipped_at:订单发货时间戳delivered_at:订单交付时间戳num_of_item:订单中物品数量
5. products.csv
- 描述:产品信息
- 字段:
id:产品唯一标识符cost:产品成本category:产品类别name:产品名称brand:产品品牌retail_price:产品零售价格department:产品所属部门sku:产品SKUdistribution_center_id:关联配送中心标识符
6. users.csv
- 描述:用户信息
- 字段:
id:用户唯一标识符first_name:用户名字last_name:用户姓氏email:用户电子邮件地址age:用户年龄gender:用户性别state:用户所在州street_address:用户街道地址postal_code:用户邮政编码city:用户所在城市country:用户所在国家latitude:用户纬度坐标longitude:用户经度坐标traffic_source:用户流量来源created_at:用户账户创建时间戳
搜集汇总
数据集介绍

构建方式
在电子商务领域,数据集的构建往往需要涵盖从供应链到用户行为的全链条信息。ecommerce-dataset通过模拟虚构的服装电商平台运营场景,系统性地整合了六大核心数据表:包括分布中心信息、库存商品明细、订单商品条目、订单总览、产品目录以及用户档案。每张表格均采用CSV格式存储,通过唯一标识符实现跨表关联,时间戳字段精确到交易过程的关键节点,地理坐标数据则为空间分析提供可能。
特点
该数据集以多维度的商业实体关联为显著特征,不仅包含产品基础属性与库存状态,还完整记录了用户下单至配送的全生命周期数据。其价值在于精细刻画了商品成本与零售价的价差关系,用户地理分布与物流中心的匹配情况,以及不同流量来源的用户转化路径。时间序列字段的完整性使得用户行为模式分析和库存周转研究成为可能,而匿名化的个人信息则平衡了数据实用性与隐私保护需求。
使用方法
研究者可通过解析CSV文件间的外键关联构建完整的电商数据模型,例如将用户订单与其地理位置、所购商品特征进行交叉分析。典型应用场景包括:基于产品类别的销售趋势预测,结合物流中心坐标的配送效率优化,或是通过用户行为时间序列构建购买漏斗。建议使用Pandas等工具进行多表连接,利用地理坐标字段可结合GIS工具进行空间可视化,而时间戳字段则适合用时间序列分析方法挖掘周期性规律。
背景与挑战
背景概述
ecommerce-dataset是一个虚构的电子商务服装网站数据集,旨在为研究者和开发者提供一个模拟真实电商环境的综合性数据资源。该数据集涵盖了从用户信息、产品目录、库存管理到订单处理的全流程数据,为电商领域的算法开发、用户行为分析和供应链优化等研究提供了丰富的数据支持。通过整合多维度的数据字段,如用户地理位置、产品类别、订单状态等,该数据集能够有效模拟真实电商平台的运营场景,为相关研究提供了宝贵的实验基础。
当前挑战
该数据集在解决电商领域问题的过程中面临多重挑战。首先,数据集的构建需要高度模拟真实电商平台的复杂性和多样性,包括用户行为的随机性、订单状态的动态变化以及库存管理的实时性。其次,数据的一致性和完整性是另一大挑战,尤其是在多表关联的情况下,如何确保数据之间的逻辑关系准确无误。此外,数据的时间戳处理和地理信息的准确性也对数据集的实用性提出了较高要求。这些挑战在数据集的构建过程中需要被逐一克服,以确保其能够为电商研究提供可靠的数据支持。
常用场景
经典使用场景
在电子商务研究领域,ecommerce-dataset为分析用户购买行为和库存管理提供了丰富的数据支持。通过整合用户信息、订单记录、产品详情和库存状态等多维数据,研究人员能够深入挖掘消费者偏好、季节性销售趋势以及产品生命周期等关键商业指标。该数据集特别适合用于构建推荐系统模型,优化供应链管理策略,以及预测销售业绩。
解决学术问题
该数据集有效解决了电子商务研究中数据碎片化和信息孤岛问题。通过提供完整的用户-订单-产品关联数据,学者们能够系统性地研究消费者决策过程、价格弹性对销量的影响、以及跨渠道营销效果评估。其时空标记数据为研究区域消费差异和物流效率提供了独特视角,填补了该领域高质量仿真数据的空白。
衍生相关工作
基于该数据集已产生多项重要研究成果,包括基于深度学习的动态定价模型、结合时空特征的需求预测算法、以及融合用户画像的混合推荐系统。部分研究进一步扩展了原始数据集,添加了社交媒体互动数据或天气信息,为理解多因素影响下的消费行为提供了新维度。这些工作发表在KDD、ICDM等顶级数据科学会议上,推动了电子商务分析方法的创新。
以上内容由遇见数据集搜集并总结生成



