ERP Synthetic Data Generator

github2026-01-03 更新2026-01-05 收录

下载链接：

https://github.com/scripts-and-tables/erp-synthetic-data-generator

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个可配置的Python脚本，生成用于演示、测试和分析原型的现实合成业务数据，特别是当真实的ERP/CRM数据集不可用（或无法用于长期历史时期）时。该项目模拟了一家在空气清新剂类别（扩散器生态系统）中运营的公司的销售数据。产品目录简单但业务现实，分为四个产品组：设备、补充装、配件和备件。客户活动是按客户和按天生成的，客户行为自然分化。该数据集设计用于支持10-15年以上的交易，适合构建和测试CRM/ERP分析仪表板、细分和保留分析、流失/休眠逻辑、客户生命周期模型和数据工程管道。

This is a configurable Python script that generates realistic synthetic business data for demonstrations, testing, and analytical prototyping, particularly when real ERP/CRM datasets are unavailable or cannot be utilized for long-term historical periods. This project simulates the sales data of a company operating in the air freshener category (diffuser ecosystem). The product catalog is simple yet business-realistic, divided into four product groups: equipment, refills, accessories, and spare parts. Customer activities are generated on a per-customer and per-day basis, with natural variations in customer behavior. This dataset is designed to support transactional records spanning over 10 to 15 years, and is suitable for building and testing CRM/ERP analytics dashboards, segmentation and retention analysis, churn/hibernation logic, customer lifecycle models, and data engineering pipelines.

创建时间：

2026-01-03

原始信息汇总

ERP 合成数据生成器数据集概述

数据集背景

该数据集模拟一家经营空气清新剂品类（香薰机生态系统）公司的销售数据。

数据集特点

大规模：可生成数十万客户及多年的历史数据。
长周期：设计支持10–15年以上的交易记录。
ERP风格且关系型：包含清晰的主表、事实表及外键关联。
行为化（非均匀随机）：每个客户随时间形成独特的购买模式。

适用场景

CRM/ERP分析仪表盘构建与测试。
客户细分与留存分析。
流失/休眠逻辑分析。
客户生命周期模型构建。
数据工程管道（主表 + 事实表 + 键）测试。

生成的数据表（CSV格式）

Products（产品主表）
Customers（客户主表）
Sales Transactions（销售交易事实表，发票行级别）

数据模型详情

`products` 表

列名	类型	主键	说明
product_id	INTEGER	✅	内部产品标识符 (1..N)
product_name	TEXT		描述性产品名称
brand	TEXT		品牌标签
category	TEXT		类别：`DEVICE`、`REFILL`、`ACCESSORY`、`SPARE_PART`
gramm_g	INTEGER		克重（以克为单位），非消耗品允许为NULL

`customers` 表

列名	类型	主键	说明
customer_id	INTEGER	✅	内部客户标识符 (1..N)
created_at	TEXT		ISO日期格式 `YYYY-MM-DD`
first_name	TEXT		可选（可配置缺失）
last_name	TEXT		可选（可配置缺失）
email	TEXT		可选（可配置缺失）
phone	TEXT		可选（可配置缺失）
email_opt_in	INTEGER		0/1（概率取决于邮箱是否可用）
sms_opt_in	INTEGER		0/1（概率取决于电话是否可用）
call_opt_in	INTEGER		0/1（概率取决于电话是否可用）

`sales_transactions` 表

列名	类型	外键	说明
invoice_id	TEXT		业务发票标识符
customer_id	INTEGER	✅ `customers.customer_id`	客户引用
invoice_date	TEXT		ISO日期格式 `YYYY-MM-DD`
product_id	INTEGER	✅ `products.product_id`	产品引用
quantity	NUMERIC		购买数量
revenue	NUMERIC		净收入金额（简单定价模型，可按需扩展）
store_id	INTEGER		门店标识符

产品目录结构

产品目录分为四个产品组：

Devices — 香薰机设备。
Refills — 与设备配套使用的消耗品/液体。
Accessories — 支架、固定器、贴纸、附加组件。
Spare parts — 盖子、密封件、灯芯、适配器等。

客户行为模拟

客户活动按逐个客户和逐日生成，因此客户行为自然分化：

部分客户购买一次后消失。
部分客户成为忠诚客户并重复购买补充装。
部分客户随时间增加或减少购买频率。
部分客户长期休眠后再次回归。
部分客户永久流失（模拟“流失决定日期”）。
活跃客户偶尔可能在同一天生成多张发票。

生成工具与依赖

该数据集由一个可配置的Python脚本生成。
项目依赖：pandas、Faker。

免责声明

本项目生成的所有数据均为合成数据，随机生成，不包含任何真实的客户或公司信息。

搜集汇总

数据集介绍

构建方式

在商业智能与客户关系管理领域，合成数据生成技术为缺乏真实历史数据的研究提供了重要支持。ERP Synthetic Data Generator采用可配置的Python脚本，通过模拟空气清新剂行业的企业运营场景，逐日逐客户地生成交易记录。该生成器基于预设的产品分类体系与客户行为模式，构建了包含产品、客户及销售交易三个核心表的关系型数据集，确保了数据在时间跨度和规模上的可扩展性。

特点

该数据集在合成商业数据领域展现出独特优势，其设计注重长期性与行为真实性。数据集支持生成跨越十至十五年以上的交易历史，涵盖数十万客户规模，模拟了客户从活跃、休眠到流失的完整生命周期。与均匀随机生成的数据不同，每个客户形成独立的时间序列行为模式，如重复购买、频率变化或长期休眠后回归，这为CRM分析、客户细分及流失预测等任务提供了高度逼真的测试环境。

使用方法

用户可通过命令行界面灵活配置数据生成参数，例如客户数量、时间范围等，快速生成定制规模的CSV格式数据文件。生成的数据集可直接用于构建数据分析管道、测试企业资源规划系统仪表板，或作为机器学习模型的训练与验证基础。建议从较小规模开始生成以验证工作流程，随后逐步扩展至大规模运行，并利用数据库或Parquet格式处理超出Excel行限制的超大文件。

背景与挑战

背景概述

在商业智能与客户关系管理领域，高质量数据的稀缺性长期制约着分析模型与系统原型的开发。ERP Synthetic Data Generator应运而生，作为一个可配置的Python脚本，专为生成逼真的合成业务数据而设计，尤其适用于ERP/CRM系统演示、测试及分析原型构建场景。该数据集由开源社区贡献，核心研究问题聚焦于模拟真实企业资源规划系统中的销售交易、客户行为及产品目录，以填补历史数据缺失或敏感数据不可用的空白。其影响力在于为学术界与工业界提供了大规模、长周期且关系结构完整的仿真数据，有力支撑了客户生命周期建模、流失分析及数据工程管道的验证工作。

当前挑战

该数据集旨在解决企业资源规划与客户关系管理系统中数据分析的通用性问题，其核心挑战在于如何精准模拟复杂多变的客户购买行为，包括客户忠诚度演化、间歇性购买模式及流失决策的动态性。构建过程中的挑战则体现在生成大规模、长时序数据时保持行为逻辑的一致性，以及设计可配置参数以平衡数据真实性与生成效率。此外，确保关系型数据模型的完整性，如主外键约束与业务规则的可扩展性，亦对生成算法的稳健性提出了较高要求。

常用场景

经典使用场景

在商业智能与数据分析领域，ERP Synthetic Data Generator 常被用于构建和测试企业资源规划（ERP）或客户关系管理（CRM）系统的分析仪表板。该数据集模拟了空气清新剂行业的多年度销售交易，其大规模、长周期及关系型数据结构，使得研究人员能够基于真实的业务逻辑，进行客户细分、留存分析以及流失预测等经典场景的探索，为缺乏实际历史数据的环境提供了可靠的仿真基础。

解决学术问题

该数据集有效解决了学术研究中因真实商业数据稀缺或难以获取而导致的模型验证难题。通过生成包含多样化客户行为模式（如一次性购买、忠诚回购、休眠与流失）的合成数据，它支持对客户生命周期模型、数据工程管道以及时序预测算法的稳健性测试。这不仅促进了零售分析与机器学习领域的实证研究，还为长期行为建模提供了可控且可扩展的数据环境，显著提升了学术成果的可复现性与泛化能力。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在客户行为建模与合成数据生成方法上。例如，基于其长周期交易特征，研究者开发了更精细的客户流失预测模型，并探索了时序聚类算法在零售细分中的应用。同时，该生成器的可配置性也启发了后续研究，如扩展至多行业数据仿真框架，或结合生成对抗网络（GAN）提升合成数据的真实性，这些工作进一步推动了合成数据在隐私保护与机器学习训练中的创新应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集