Synthetic Data Repository

github2025-09-07 更新2025-09-21 收录

下载链接：

https://github.com/leventbulut/synthetic-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含10个现实合成数据集的综合存储库，涵盖医疗保健、金融、营销、供应链、制造、零售等多个行业。每个数据集都包含详细的文档、业务背景和建议任务，适用于数据科学教育、机器学习实践和研究。数据集具有季节性、依赖性、异常值和缺失值等复杂逻辑，但不包含真实的个人身份信息或专有数据。

This is a comprehensive repository containing 10 real-world synthetic datasets covering multiple industries including healthcare, finance, marketing, supply chain, manufacturing, retail, and others. Each dataset includes detailed documentation, business background and recommended tasks, which are suitable for data science education, machine learning practice and research. The datasets feature complex logical characteristics such as seasonality, dependencies, outliers and missing values, but do not contain any real personal identifiable information or proprietary data.

创建时间：

2025-09-01

原始信息汇总

数据集概述

基本信息

数据集名称：Synthetic Data Repository
数据集地址：https://github.com/leventbulut/synthetic-datasets
数据集类型：合成数据集
数据规模：300K至1M记录
数据格式：CSV

数据集内容

行业覆盖：医疗保健、金融服务、数字营销、供应链、制造业、零售、电信、教育、运输、能源与公用事业
目标变量：分类任务（4类或3类）和回归任务
关键特征：患者人口统计、客户财务、客户参与度、供应商绩效、生产参数、销售交易、服务使用、学生人口统计、路线数据、建筑指标

数据质量特征

缺失值：3% MNAR（非随机缺失）模式
异常值：0.2%极端值
输入错误：≤30%数据不一致
依赖性：目标变量依赖≥5个预测变量

文档结构

数据字典：列描述、类型、描述、单位、缺失情况
业务背景：业务问题、行业影响、合成数据优势
建议任务：分析目标、关键特征、业务影响、建议方法、评估指标

使用案例

分类任务：预测客户流失、分类供应商风险水平、识别质量等级、细分客户
回归任务：预测医院再入院成本、预测客户生命周期价值、估计运输交付成本、建模能源消耗模式
聚类任务：按行为模式细分客户、按绩效特征分组供应商、按学术档案聚类学生、识别建筑效率组
高级分析：投资组合风险优化、供应链中断预测、制造过程优化、能源效率改进策略

许可证

所有数据集均为合成数据，不包含真实世界数据，可自由用于教育和研究目的。

搜集汇总

数据集介绍

构建方式

在数据科学教育领域，Synthetic Data Repository通过算法生成高度仿真的多行业数据集，采用精密逻辑模拟真实业务场景中的季节性波动、变量依赖性和异常值模式。构建过程中严格遵循数据隐私规范，完全避免真实个人身份信息的引入，同时嵌入3%的非随机缺失值、0.2%的极端值以及30%的数据不一致性，确保数据集既具备现实复杂性又符合合规要求。

特点

该数据集涵盖医疗、金融、零售等十大垂直领域，每个数据集包含50万至200万条记录与超过20个特征维度，提供分类与回归双目标变量。其核心特色在于完美平衡机器学习任务的挑战性与教育适用性：分类目标采用均衡分布设计，回归目标保留真实业务中的偏态特征，且所有数据均配备完整的数据字典、业务场景说明和定制化分析任务指南。

使用方法

使用者可通过行业索引快速定位目标数据集，结合分层文档体系开展端到端分析。建议先通过业务上下文文档理解行业背景，再依据数据字典解析特征含义，最终从建议任务库中选择分类、回归或聚类问题进行建模实践。数据集以CSV格式存储，支持主流数据分析工具直接加载，特别适合机器学习教学、算法验证和行业解决方案原型开发。

背景与挑战

背景概述

Synthetic Data Repository作为数据科学与机器学习领域的重要资源，由专业研究团队于近年创建，旨在解决真实数据因隐私保护和商业机密限制而难以获取的困境。该数据集通过高度仿真的合成技术，模拟医疗、金融、零售等多个行业的数据特征，包含分类、回归及聚类等多种机器学习任务目标，为学术研究和工业应用提供了丰富且安全的实验材料，显著推动了数据驱动决策方法的发展与普及。

当前挑战

该数据集核心挑战在于如何精准模拟真实业务场景中的复杂数据关系，包括变量间的季节性与依赖性、非随机缺失模式以及异常值分布。构建过程中需克服合成数据与真实数据分布一致性的技术难题，确保数据既无隐私泄露风险，又具备足够的现实意义与教育价值，以支持有效的模型训练与评估。

常用场景

经典使用场景

在数据科学与机器学习教学领域，Synthetic Data Repository通过生成包含季节性模式、依赖关系和异常值的合成数据，为分类、回归及聚类任务提供高质量的训练素材。教育工作者利用其行业标准化的数据结构，设计涵盖医疗风险预测、金融信用评估等多领域的教学案例，使学生能够在避免隐私风险的前提下掌握真实业务场景中的数据分析技能。

实际应用

工业界将此类合成数据作为生产系统的安全测试环境，企业可在部署前验证风控模型或供应链预测流程的可靠性。例如金融机构利用其金融数据集模拟信用评分流程，零售企业通过客户行为数据优化营销策略，既规避了真实数据泄露风险，又显著降低了模型开发的概念验证成本。

衍生相关工作

该资源催生了多项合成数据质量评估的标准研究，包括基于依赖关系复杂度的真实性度量框架。其多行业数据结构启发了跨领域迁移学习算法的创新，如将医疗领域的异常检测模型适配至制造业质量监控。后续研究进一步扩展了合成数据生成技术，开发出支持时序动态性与多模态特征的增强版本。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集