saas-dataset

github2025-09-02 更新2025-09-22 收录

下载链接：

https://github.com/sarahddaily/saas-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该项目生成真实的、类似HubSpot风格的CRM数据集，用于测试、分析或演示。它使用Python、pandas和faker输出合成CSV，具有模拟HubSpot CRM对象的属性和关系。生成的文件包括：联系人CSV（包含名字、姓氏、电子邮件、职位等字段）、公司CSV（包含名称、行业、年收入等属性）、交易CSV（与联系人和公司相关的销售交易）、票据CSV（与客户相关的支持票据）以及互动CSV（与联系人和交易相关的活动，如通话、电子邮件和会议）。

This project generates realistic, HubSpot-style CRM datasets for testing, analysis, or demonstration purposes. It utilizes Python, pandas, and Faker to produce synthetic CSV files with simulated attributes and relational structures that mirror HubSpot CRM objects. The generated files include: Contacts CSV (with fields such as first name, last name, email address, job title, etc.), Companies CSV (with attributes including name, industry, annual revenue, etc.), Deals CSV (sales transactions associated with contacts and companies), Tickets CSV (customer-related support tickets), and Interactions CSV (activities linked to contacts and deals, such as calls, emails, and meetings).

创建时间：

2025-09-02

原始信息汇总

数据集概述

基本信息

数据集名称：saas-dataset
描述：生成模拟HubSpot CRM风格的B2B SaaS初创企业数据集，用于测试、分析或演示。

生成文件

contacts.csv：模拟人员数据，包含名字、姓氏、电子邮件、职位、生命周期阶段等字段。
companies.csv：模拟组织数据，包含名称、行业、年收入、员工数量等属性。
deals.csv：模拟销售交易数据，与联系人和公司关联，包含交易名称、管道、交易阶段、金额等字段。
tickets.csv：模拟支持票据数据，与客户相关，包含实际主题（如UI问题、集成错误、用户权限）。
engagements.csv：模拟活动数据，如通话、电子邮件和会议，与联系人和交易关联。

数据关系

联系人属于公司（通过company_id关联）。
交易与联系人和公司关联。
票据与联系人关联（可选与交易关联）。
活动与联系人和交易关联。

生成方法

使用Python、pandas和faker库生成合成CSV文件。
模拟HubSpot CRM对象的属性和关系。

免责声明

该数据集完全为模拟生成，仅用于教育和测试目的，与HubSpot无关，不包含任何真实客户数据。

搜集汇总

数据集介绍

构建方式

在SaaS企业数据仿真领域，该数据集通过Python编程语言结合pandas数据处理框架与faker仿真库系统构建。采用模块化生成策略，分别模拟HubSpot CRM的五类核心对象：联系人、企业、交易、服务工单和互动记录。每个CSV文件均遵循真实业务逻辑的字段结构，例如联系人表包含姓名、职位、客户生命周期阶段等属性，企业表涵盖行业类型、年度营收与员工规模等关键指标，并通过唯一标识符建立对象间的关联关系。

特点

该数据集的核心特征在于其高度仿真的B2B SaaS业务数据生态。不仅覆盖客户关系管理中的多实体类型，更通过预设的关联逻辑（如联系人归属企业、交易关联企业与联系人、工单绑定客户关系）构建了完整的业务闭环。数据内容融合了行业分布合理性（如科技、金融等典型SaaS目标行业）、数值逻辑一致性（如企业规模与营收的匹配关系）以及业务流程真实性（如交易管道阶段与互动记录的联动），为测试与分析提供近似真实的生产数据环境。

使用方法

使用者可通过克隆GitHub仓库并安装依赖库后，直接运行生成脚本快速获取数据集。输出文件为标准化CSV格式，可直接导入各类数据分析工具（如Pandas、Tableau）或CRM测试环境。对于开发场景，可调整脚本中的参数（如生成数量、行业分布权重）定制数据规模与特征；对于演示用途，结合关联字段可实现多表联动的动态业务看板构建。需注意该数据纯属仿真，仅适用于测试、教学与非生产环境。

背景与挑战

背景概述

在数字化转型浪潮中，企业级软件即服务（SaaS）平台需要高质量的数据支撑产品测试与算法验证。saas-dataset由开源社区于近年开发，专门模拟HubSpot CRM系统的数据结构，涵盖客户、企业、交易和服务工单等核心业务实体。该数据集通过生成高度仿真的合成数据，为CRM系统开发、销售漏斗分析和客户行为研究提供了重要基准，显著降低了企业获取测试数据的门槛。

当前挑战

该数据集旨在解决SaaS领域CRM系统测试数据匮乏的痛点，其构建需克服多表关联一致性的技术挑战。生成过程中需精确模拟企业级数据拓扑结构，包括联系人-企业隶属关系、交易流水关联性以及服务工单的时序逻辑。同时需确保生成数据的商业合理性，如行业分布、收入规模与员工数量的统计相关性，避免合成数据出现逻辑谬误。

常用场景

经典使用场景

在客户关系管理领域，saas-dataset通过模拟真实业务场景，为研究人员提供了标准化的测试环境。该数据集常用于构建销售漏斗分析模型，通过模拟客户生命周期阶段转换、交易管道推进等过程，支持机器学习算法在预测客户转化率、识别高价值客户等方面的性能验证。其多表关联特性使得复杂的关系网络分析成为可能，为CRM系统的智能化研究奠定了数据基础。

实际应用

在实际应用层面，该数据集广泛应用于企业软件开发测试阶段，为CRM系统提供功能验证的仿真数据源。软件开发团队依托其生成的海量测试数据，能够全面评估系统在高并发场景下的性能表现。同时，数据分析团队利用其规范化的数据结构，快速构建客户360度视图分析模型，为企业制定精准营销策略提供数据支撑，显著降低了真实数据试错成本。

衍生相关工作

基于该数据集衍生的经典研究包括客户生命周期价值预测模型、智能销售管道优化算法、多模态客户服务响应系统等创新工作。众多学者利用其多表关联特性，开发了基于图神经网络的客户关系挖掘方法，显著提升了商业洞察的深度。此外，该数据集还催生了多个跨领域研究，如结合自然语言处理技术的支持工单自动分类系统，推动了人工智能在企业管理中的融合应用。

以上内容由遇见数据集搜集并总结生成