population-minot-nd-cohort-100

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/HipAAsynth/population-minot-nd-cohort-100

下载链接

链接失效反馈

官方服务：

资源简介：

HipAAsynth数据集是一个用于验证的合成数据集，由HipAAsynth服务生成。该服务通过确定性方法模拟真实世界中的变异性，用于评估医疗保健系统在部署条件下的表现。数据集代表一个用于测试和基准测试的受控队列，模拟患者群体、人口统计分布和共病模式的表现。数据集采用13列结构化CSV格式，包含患者ID、年龄、性别、种族、身高、体重、BMI、BMI分类、临床条件列表、就诊次数、实验室检查次数等字段。所有数据均为合成数据，不含真实患者信息。该数据集适用于医疗保健领域的表格分类和回归任务评估，特别适合需要可重复测试场景的研究。

创建时间：

2026-03-26

原始信息汇总

数据集概述

基本信息

数据集名称: HipAAsynth Dataset
版本: 1.0.0
许可协议: CC-BY-NC-4.0
规模类别: n<1K
配置名称: default
数据文件: synthetic_minot_nd_sample_100_seed1001.csv (训练集)

任务与标签

任务类别: 表格分类、表格回归
标签: 医疗保健、电子健康记录、表格数据、评估、确定性

数据集描述

该数据集是由HipAAsynth生成的验证工件。HipAAsynth是一种确定性测试和验证服务，通过模拟真实世界的变异性来评估医疗保健系统在部署条件下的性能。

此数据集代表一个用于测试和基准测试的受控队列。HipAAsynth生成队列以模拟以下方面的状况呈现：

患者群体
人口统计分布
共病模式

数据集专为可重复的评估和跨系统的一致比较而设计。

数据模式

数据集为13列的结构化CSV文件，具体列信息如下：

列名	描述
patient_id	唯一患者标识符
age	年龄（岁）
sex	生理性别
ethnicity	患者种族
height_cm	身高（厘米）
weight_kg	体重（千克）
bmi	身体质量指数
bmi_category	BMI分类（体重过轻 / 正常 / 超重 / 肥胖）
conditions	活动性临床状况列表（竖线分隔）
num_visits	总就诊次数
num_labs	总实验室检查订单数
synthetic	始终为true — 不含真实患者数据
disclaimer	数据使用免责声明

搜集汇总

数据集介绍

构建方式

在医疗健康数据科学领域，合成数据生成技术为系统评估提供了安全可控的测试环境。本数据集由HipAAsynth这一确定性测试与验证服务生成，旨在模拟真实世界中的变异性，以评估医疗系统在部署条件下的表现。它通过构建一个包含100名患者的受控队列，模拟了患者群体、人口统计分布及共病模式，所有数据均为合成生成，不包含任何真实患者信息，确保了隐私安全与合规性。

特点

该数据集以结构化表格形式呈现，包含13个关键字段，涵盖了患者标识、年龄、性别、民族、身高、体重、身体质量指数及其分类、活跃临床条件、就诊次数、实验室检查次数等核心医疗特征。其设计注重可重复评估与跨系统一致比较，数据完全合成且具有确定性，支持表格分类与回归任务，适用于医疗健康领域的模型测试与基准评估。

使用方法

研究人员和开发者可将此数据集用于医疗预测模型的验证与性能测试。数据以CSV格式提供，包含单一训练分割文件，可直接加载至数据分析或机器学习框架中。用户可基于年龄、BMI分类等特征进行疾病风险预测或资源利用分析，但需注意数据为合成性质，适用于方法学验证而非临床决策，并应遵守CC-BY-NC-4.0许可协议的限制。

背景与挑战

背景概述

在医疗健康信息学领域，电子健康记录数据的可用性与隐私保护之间的张力催生了合成数据生成技术的发展。HipAAsynth数据集作为一项验证性产物，由HipAAsynth服务创建，该服务专注于通过确定性模拟来评估医疗系统在部署环境下的表现。该数据集构建了一个名为'population-minot-nd-cohort-100'的受控队列，旨在模拟真实世界中的患者群体变异性，涵盖人口统计分布与共病模式等多个维度。其核心研究问题聚焦于如何生成既保留临床相关性又完全脱离真实患者隐私风险的合成数据，以支持医疗人工智能系统的可重复评估与跨系统一致性比较，对推动医疗数据分析的标准化与伦理合规性具有重要影响力。

当前挑战

该数据集致力于解决医疗健康领域中的模型评估与基准测试挑战，特别是在缺乏大规模、多样化真实临床数据的情况下，如何构建能够反映真实世界复杂性的合成数据以验证系统鲁棒性。构建过程中的主要挑战包括：在保持数据确定性与可重复性的同时，精确模拟患者群体的人口学特征、生理指标分布以及多病症共现模式；确保合成数据在统计特性上与真实临床场景高度一致，同时完全避免任何真实患者信息的泄露；设计结构化表格模式以平衡信息的丰富性与实用性，支持分类与回归等多种机器学习任务。这些挑战凸显了在医疗人工智能开发中合成数据生成技术所面临的技术与伦理双重复杂性。

常用场景

经典使用场景

在医疗健康数据分析领域，该数据集作为验证工具，主要用于模拟真实世界患者群体的变异性，以评估医疗系统在部署条件下的表现。通过生成包含年龄、性别、体重指数及合并症模式等结构化信息的合成队列，研究人员能够进行可重复的性能测试，确保算法在不同人口统计分布下的稳健性，从而为电子健康记录系统的优化提供基准。

衍生相关工作

围绕该数据集衍生的经典工作包括医疗合成数据生成方法的比较研究，以及基于确定性测试的评估框架开发。这些工作扩展了在人口健康建模、疾病预测算法基准测试等领域的应用，促进了跨机构协作的标准化，为后续更复杂的合成数据生态系统提供了参考范例。

数据集最近研究