chest-pain-diagnostic-cohort-100

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/HipAAsynth/chest-pain-diagnostic-cohort-100

下载链接

链接失效反馈

官方服务：

资源简介：

HipAAsynth数据集是一个用于验证的合成数据集，由HipAAsynth服务生成，旨在模拟真实世界的变异性以评估医疗系统在部署条件下的表现。该数据集代表一个用于测试和基准测试的受控队列，模拟了不同患者群体、人口统计分布和共病模式下的情况。数据集采用38列的结构化CSV格式，包含患者ID、年龄、性别、种族、吸烟状态、各种疾病标志、胸痛类型、症状持续时间、生命体征、心电图结果、风险分层、最可能的临床诊断和处理结果等字段。所有数据均为合成数据，不包含真实患者信息。数据集适用于医疗保健领域的表格分类和回归任务，特别适合用于可重复的评估和系统间的比较。

创建时间：

2026-03-26

原始信息汇总

数据集概述

基本信息

数据集名称: HipAAsynth Dataset (chest-pain-diagnostic-cohort-100)
发布者/来源: HipAAsynth
许可证: CC BY-NC 4.0
版本: 1.0.0
规模类别: n<1K
任务类别: 表格分类、表格回归
标签: 医疗保健、电子健康记录、表格数据、评估、确定性

数据集描述

该数据集是由HipAAsynth生成的验证工件。HipAAsynth是一项确定性测试和验证服务，通过模拟真实世界的变异性来评估医疗保健系统在部署条件下的性能。此数据集代表一个用于测试和基准测试的受控队列。HipAAsynth生成队列以模拟以下方面的表现情况：

患者群体
人口统计分布
共病模式数据集设计用于可重复评估和跨系统的一致比较。

数据结构与内容

格式: 38列结构化CSV文件
数据文件: chest_pain_diagnostic_100_seed2026.csv (训练集)

列字段说明

列名	描述
patient_id	唯一患者标识符
data_type	数据集类型标识符
anchor_hash	用于可重现性的SHA-256生成锚
age	年龄（岁）
sex	生理性别
ethnicity	患者种族
smoker	吸烟状态标志
diabetes	糖尿病标志
hypertension	高血压标志
hyperlipidemia	高脂血症标志
coronary_artery_disease	冠状动脉疾病标志
chronic_kidney_disease	慢性肾脏疾病标志
heart_failure_history	心力衰竭病史标志
chest_pain_type	胸痛类型（胸膜炎性/典型/非典型/非心源性）
symptom_onset_hours	症状出现后的小时数
chest_pain_severity_0_10	疼痛严重程度评分（0–10）
exertional	劳累性发作标志
radiation_to_arm	疼痛放射至手臂标志
diaphoresis	出汗标志
nausea	恶心标志
dyspnea	呼吸困难标志
systolic_bp	收缩压（mmHg）
diastolic_bp	舒张压（mmHg）
heart_rate	心率（bpm）
respiratory_rate	呼吸频率（次/分钟）
spo2	血氧饱和度（%）
temperature_c	体温（摄氏度）
troponin_initial	初始肌钙蛋白值
troponin_repeat_3h	3小时后重复肌钙蛋白值
ecg_flag	心电图异常存在标志
ecg_st_elevation	心电图ST段抬高标志
ecg_st_depression	心电图ST段压低标志
ecg_t_wave_inversion	心电图T波倒置标志
risk_bucket	风险分层（低/中/高）
likely_diagnosis	最可能的临床诊断
disposition	处置结果（入院/出院/STEMI方案）
synthetic	始终为真——无真实患者数据
disclaimer	数据使用免责声明

关键特征

数据性质: 合成数据，不含真实患者信息。
设计目的: 用于医疗保健系统的确定性测试、验证和基准评估。
核心变量: 涵盖人口统计学、病史、症状、生命体征、实验室检查（肌钙蛋白）、心电图结果、风险分层、诊断和处置结果。
可重现性: 通过anchor_hash确保生成过程的可重现性。

搜集汇总

数据集介绍

构建方式

在医疗数据科学领域，合成数据生成技术为模型验证提供了可控且可重复的测试环境。本数据集由HipAAsynth服务生成，作为一个确定性验证工具，它通过模拟真实世界中的患者群体变异性来构建。该工具精心设计了包括人口统计学分布、共病模式及临床表现在内的多维特征，生成了一个包含38个结构化字段的表格队列。所有数据均基于可复现的生成锚点合成，不含真实患者信息，旨在为医疗系统的部署前评估提供一个安全、一致的基准测试平台。

使用方法

该数据集主要适用于医疗人工智能系统的性能评测与基准测试。研究人员可将其用于表格分类或回归任务的模型训练与验证，例如预测患者的风险等级或最终处置方案。在使用时，应遵循其CC-BY-NC-4.0许可协议，并明确认知数据为合成性质，不应用于直接指导临床决策。典型的流程包括加载CSV文件，依据‘risk_bucket’或‘disposition’等列定义预测任务，划分训练测试集，进而评估模型在模拟但贴近现实的临床场景下的泛化能力与稳健性。

背景与挑战

背景概述

在医疗人工智能领域，高质量、可重复的评估数据集对于验证临床决策支持系统的稳健性至关重要。Chest-Pain-Diagnostic-Cohort-100数据集由HipAAsynth工具生成，作为一个确定性测试与验证服务，其核心研究问题在于模拟真实世界中的患者变异性，以评估医疗系统在部署条件下的表现。该数据集通过构建一个包含人口统计学分布、共病模式及症状特征的胸痛诊断队列，旨在为医疗AI系统提供一个可控、可复现的基准测试环境，从而推动临床预测模型在真实场景中的可靠应用。

当前挑战

该数据集致力于解决胸痛鉴别诊断这一临床核心问题的挑战，包括如何整合多源异构的电子健康记录数据，如症状描述、生命体征、实验室检查与心电图特征，以准确进行风险分层与最终诊断预测。在构建过程中，主要挑战在于生成既符合真实临床流行病学分布，又完全合成以避免患者隐私泄露的数据；同时需确保数据的确定性，以支持跨系统的可重复比较，并在有限的样本规模下有效捕捉胸痛病因的复杂性与多样性。

常用场景

经典使用场景

在心血管医学与临床决策支持领域，该数据集常被用于构建和验证胸痛诊断的风险分层模型。通过整合患者人口统计学特征、合并症模式、症状表现及实验室检查结果等多维度变量，研究人员能够模拟真实世界中的临床变异性，从而评估机器学习算法在区分低、中、高风险患者方面的性能。这种应用不仅促进了诊断准确性的提升，还为急诊科胸痛评估流程的标准化提供了数据驱动的参考依据。

解决学术问题

该数据集主要解决了医疗人工智能系统在部署环境下的可重复性与泛化能力评估问题。通过提供结构化的合成队列，它使得研究者能够在控制混杂因素的前提下，系统性地检验模型对于不同人口分布和共病模式的适应性。这有助于克服真实电子健康记录数据中常见的隐私限制与样本偏差，为开发稳健的临床预测工具奠定了验证基础，推动了医疗AI从实验阶段向实际应用的过渡。

实际应用

在实际医疗场景中，该数据集可用于培训临床决策支持系统，辅助急诊医师进行胸痛患者的快速分诊与处置决策。通过模拟包括典型心绞痛、非心源性胸痛在内的多种诊断情境，系统能够学习识别关键临床特征，从而建议住院、出院或启动STEMI协议等处置方案。这种应用不仅优化了医疗资源分配，也潜在降低了漏诊与误诊风险，提升了急性胸痛管理的整体效率与安全性。

数据集最近研究