Twin_hospital_sample100
收藏Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/HipAAsynth/Twin_hospital_sample100
下载链接
链接失效反馈官方服务:
资源简介:
Twin Hospital Synthetic Dataset 是一个合成的确定性医院患者数据集,包含两个匹配的医院队列(Hospital A 和 Hospital B)。数据集采用 CC-BY-NC-4.0 许可,主要面向表格分类和回归任务,数据规模为 100-1000 条样本。
数据集包含两个主要文件:hospital_a_patients.csv 和 hospital_b_patients.csv,分别记录了两家医院的 1000 名患者信息(Hospital A:55-95 岁患者,seed=4200;Hospital B:30-75 岁患者,seed=4201)。数据具有确定性、纯合成、无个人健康信息(PHI)、模式匹配和受控变异等特点。
主要应用场景包括:模型比较、偏差测试、部署模拟和 A/B 评估。数据集还提供 schema.json 结构描述文件和 twin_validation.txt 验证文件,且可扩展更大规模的队列。
创建时间:
2026-03-25
原始信息汇总
Twin Hospital Dataset 数据集概述
数据集基本信息
- 数据集名称:Twin Hospital Dataset
- 发布者/来源:HipAAsynth
- 版本:1.0.2
- 许可协议:CC BY-NC 4.0
- 数据规模:n<1K
- 任务类别:表格分类、表格回归
- 标签:合成数据、医疗健康、电子健康记录、确定性生成、hipaasynth、双队列、偏差测试、人群分布偏移
数据集内容与结构
数据集包含两个匹配的、确定性生成的合成医院患者队列,具有受控的人口统计学差异。
- Hospital A 患者:100名患者,年龄55-95岁,生成种子为4200。
- Hospital B 患者:100名患者,年龄30-75岁,生成种子为4201。
主要文件
00_twin_summary.csv:队列对比指标汇总。hospital_a_patients.csv:医院A的100名患者数据。hospital_b_patients.csv:医院B的100名患者数据。schema.json:列定义。twin_validation.txt:验证报告。
数据格式
标准化的13列CSV文件,包含结构化的电子健康记录风格字段:
patient_id:患者唯一标识符age:年龄sex:性别ethnicity:种族height_cm:身高(厘米)weight_kg:体重(千克)bmi:身体质量指数bmi_category:BMI分类conditions:管道符分隔的疾病列表num_visits:临床就诊次数num_labs:实验室结果数量synthetic:始终为Truedisclaimer:合成数据免责声明
关键差异对比
| 指标 | 医院A | 医院B |
|---|---|---|
| 平均年龄 | 72.8 | 51.0 |
| 女性比例 | 53.0% | 54.3% |
| 平均BMI | 28.7 | 29.2 |
| 糖尿病患病率 | 22.9% | 15.1% |
| 高血压患病率 | 72.9% | 52.8% |
| 心力衰竭患病率 | 8.0% | 2.5% |
| 慢性阻塞性肺疾病患病率 | 10.8% | 6.2% |
| 慢性肾脏病患病率 | 31.5% | 17.2% |
| 抑郁症患病率 | 5.6% | 6.5% |
设计目的与用途
- 用于跨人群分布偏移的模型比较。
- 用于偏差测试和公平性评估。
- 用于部署模拟。
- 用于A/B评估。
特性
- 确定性生成:可重现,在不同运行中产生相同的输出。
- 合成数据:不包含任何真实的患者数据或受保护的健康信息。
- 用途限制:旨在用于测试、开发、研究和基准测试,不适用于临床决策、诊断、治疗或患者护理。
版本历史
- 1.0.2 (2026年3月):添加了
00_twin_summary.csv文件,修复了README,更新为100名患者样本。 - 1.0.1 (2026年3月):首次公开发布。



