synthetic_diabetes_patient_dataset

github2025-12-22 更新2025-12-27 收录

下载链接：

https://github.com/ahmedunshur/synthetic-data-generation-pycon-somalia-2025

下载链接

链接失效反馈

官方服务：

资源简介：

合成糖尿病病人数据集包含以下字段：患者ID、出生日期、性别、糖尿病类型、糖化血红蛋白水平、空腹血糖、BMI指数和最近就诊日期。这些数据是人工生成的，不包含真实患者信息，仅用于演示和教育目的。

The Synthetic Diabetic Patient Dataset includes the following fields: Patient ID, Date of Birth, Gender, Diabetes Type, Glycated Hemoglobin Level, Fasting Blood Glucose, BMI Index, and Last Visit Date. This dataset is artificially generated, contains no real patient information, and is solely intended for demonstration and educational purposes.

创建时间：

2025-12-22

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Synthetic Data Generation with Python and LLMs
数据集主题: 使用Python和大型语言模型生成合成数据
数据内容: 合成的糖尿病患者记录数据
数据用途: 用于演示和教育目的，不可用于研究、医疗或临床用途。

数据集来源与背景

项目背景: 该项目是PyCon Somalia 2025演讲“Synthetic Data Generation with Python and LLMs”的演示代码。
生成方法: 演示了两种合成数据生成方法：
1. 使用NumPy的统计方法生成合成数据。
2. 使用LangChain和OpenAI模型的生成模型和大型语言模型生成合成数据。

数据字段描述

合成糖尿病患者数据集包含以下字段：

字段名称	描述
`Patient_ID`	唯一的患者标识符
`Date_of_birth`	患者的出生日期，格式为YYYY-MM-DD
`Sex`	患者的生理性别（男性、女性）
`Diabetes_type`	糖尿病类型（1型、2型）
`HbA1c_percent`	糖化血红蛋白水平，反映过去2-3个月的血糖控制情况
`Fasting_Glucose_mg_dL`	空腹血糖（mg/dL）
`BMI_kg_m2`	身体质量指数（kg/m²）
`Last_Visit_Date`	最近一次临床就诊日期（在过去6个月内），格式为YYYY-MM-DD

数据文件与输出

生成的数据文件保存在data/目录下：
- synthetic_diabetes_patient_dataset_generated_with_numpy.csv
- synthetic_diabetes_patient_dataset_generated_with_llm.csv

重要声明与限制

数据性质: 所有生成的数据集均为合成数据，不代表真实患者。
准确性限制: 生成的数据可能无法准确反映真实的临床数据集。它是基于简化假设生成的，且生成过程中未咨询任何医生或临床专家。
使用限制: 这些数据集不能用于研究、医疗或临床目的。它们仅用于演示和教育目的。

许可证信息

代码许可证: 此存储库中的代码根据MIT许可证授权。详情见LICENSE文件。
演示材料许可证: PyCon Somalia 2025演讲的演示材料根据知识共享署名4.0国际许可证授权。

搜集汇总

数据集介绍

构建方式

在医疗数据科学领域，合成数据生成技术为解决敏感信息保护与数据稀缺性挑战提供了创新路径。synthetic_diabetes_patient_dataset的构建采用了两种互补的方法论：一方面，利用NumPy库基于统计分布模拟生成数据，通过预设的均值、标准差等参数来复现真实糖尿病患者的生理指标模式；另一方面，结合LangChain框架与OpenAI的大型语言模型，以智能化方式生成符合医学逻辑的记录。这两种方法均严格遵循合成数据的生成原则，确保输出数据在保持统计特性的同时完全剥离任何真实个体身份信息。

特点

该数据集聚焦于糖尿病患者的临床记录模拟，涵盖了患者标识、人口学特征、糖尿病分型及关键生理指标等多个维度。其核心特点在于完全由算法生成，不存在隐私泄露风险，为数据安全要求严格的应用场景提供了合规的替代方案。数据字段设计体现了典型的临床数据架构，包括糖化血红蛋白、空腹血糖和身体质量指数等核心代谢指标，能够支持基础的数据分析教学与算法演示。然而，需要明确的是，这些数据基于简化假设生成，并未经过临床医学专家的校验，因此不具备真实的医学参考价值。

使用方法

作为教育演示工具，该数据集主要服务于数据科学与机器学习领域的教学场景。使用者可通过项目提供的Jupyter Notebook范例，逐步学习合成数据的生成流程与代码实现。具体操作包括配置Python环境、安装依赖库并运行两种不同生成方法的示例代码。生成的数据集将以CSV格式保存，便于进行后续的数据处理、可视化或简单的统计分析练习。需要强调的是，该数据集严禁用于任何形式的医学研究或临床决策，其唯一用途是作为技术演示与教育素材，帮助开发者理解合成数据生成的技术原理与应用边界。

背景与挑战

背景概述

在医疗数据科学领域，真实患者记录因隐私法规和伦理约束而难以获取，严重制约了算法开发与教育演示的进程。synthetic_diabetes_patient_dataset应运而生，由Ahmed Unshur于2025年在PyCon Somalia会议上首次展示，其核心目标是通过合成数据生成技术，模拟糖尿病患者的临床特征，为数据生成方法的教学与比较提供安全、可访问的范例。该数据集聚焦于糖尿病管理的关键指标，如糖化血红蛋白与空腹血糖，旨在推动合成数据生成技术在敏感数据场景下的应用探索，为后续研究提供了重要的概念验证基础。

当前挑战

该数据集致力于应对医疗数据稀缺与隐私保护之间的根本矛盾，其核心挑战在于生成既符合真实临床统计规律、又完全脱敏的合成数据。在构建过程中，开发者面临双重困难：一方面，需确保合成数据在统计分布上贴近真实糖尿病患者的生理参数，避免因简化假设导致临床相关性失真；另一方面，生成过程需严格杜绝任何真实患者信息的泄露风险，这要求生成模型在数据保真度与隐私安全性之间取得微妙平衡。此外，如何利用大语言模型等新兴技术提升合成数据的复杂性与真实性，亦是当前方法演进中的关键挑战。

常用场景

经典使用场景

在医疗数据科学领域，合成数据生成技术为克服真实患者数据的隐私与获取壁垒提供了关键途径。该合成糖尿病数据集最经典的使用场景在于作为教学与算法演示的基准工具，它允许研究者和开发者在完全符合伦理规范的前提下，探索数据预处理、特征工程以及机器学习模型的原型设计。通过模拟包含患者ID、人口统计学信息、关键生理指标（如HbA1c、空腹血糖、BMI）及就诊记录的结构化数据，该数据集为理解糖尿病数据的基本统计特性与模式提供了安全且可控的实验环境。

解决学术问题

该数据集主要解决了在敏感医疗信息研究中普遍存在的“数据可得性”难题。由于严格的隐私法规（如HIPAA、GDPR）限制，获取真实、大规模的临床数据用于方法学开发极具挑战。此合成数据集通过模拟真实数据的统计分布，使得学者能够在无隐私泄露风险的情况下，研究数据增强技术、验证合成数据生成方法（如统计建模与LLM生成）的保真度，并评估不同算法在模拟临床场景下的性能，从而推动了隐私保护计算和合成数据质量评估等前沿学术方向的发展。

衍生相关工作

围绕合成医疗数据生成这一主题，该数据集衍生的相关经典工作主要集中于方法论比较与框架构建。例如，利用该数据集对比传统统计方法（如基于NumPy的分布采样）与新兴生成式AI方法（如基于LangChain和OpenAI模型的LLM生成）在数据保真度、多样性和生成效率上的差异。这些工作进一步催生了针对合成数据质量评估的标准化指标研究，以及如何将合成数据有效集成至机器学习工作流的开源工具链开发，为更广泛的合成数据生成社区提供了可复现的基准案例和最佳实践参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集