five

Twin_hospital_sample100

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/HipAAsynth/Twin_hospital_sample100
下载链接
链接失效反馈
官方服务:
资源简介:
Twin Hospital Synthetic Dataset 是一个合成的确定性医院患者数据集,包含两个匹配的医院队列(Hospital A 和 Hospital B)。数据集采用 CC-BY-NC-4.0 许可,主要面向表格分类和回归任务,数据规模为 100-1000 条样本。 数据集包含两个主要文件:hospital_a_patients.csv 和 hospital_b_patients.csv,分别记录了两家医院的 1000 名患者信息(Hospital A:55-95 岁患者,seed=4200;Hospital B:30-75 岁患者,seed=4201)。数据具有确定性、纯合成、无个人健康信息(PHI)、模式匹配和受控变异等特点。 主要应用场景包括:模型比较、偏差测试、部署模拟和 A/B 评估。数据集还提供 schema.json 结构描述文件和 twin_validation.txt 验证文件,且可扩展更大规模的队列。
创建时间:
2026-03-25
原始信息汇总

Twin Hospital Dataset 数据集概述

数据集基本信息

  • 数据集名称:Twin Hospital Dataset
  • 发布者/来源:HipAAsynth
  • 版本:1.0.2
  • 许可协议:CC BY-NC 4.0
  • 数据规模:n<1K
  • 任务类别:表格分类、表格回归
  • 标签:合成数据、医疗健康、电子健康记录、确定性生成、hipaasynth、双队列、偏差测试、人群分布偏移

数据集内容与结构

数据集包含两个匹配的、确定性生成的合成医院患者队列,具有受控的人口统计学差异。

  • Hospital A 患者:100名患者,年龄55-95岁,生成种子为4200。
  • Hospital B 患者:100名患者,年龄30-75岁,生成种子为4201。

主要文件

  • 00_twin_summary.csv:队列对比指标汇总。
  • hospital_a_patients.csv:医院A的100名患者数据。
  • hospital_b_patients.csv:医院B的100名患者数据。
  • schema.json:列定义。
  • twin_validation.txt:验证报告。

数据格式

标准化的13列CSV文件,包含结构化的电子健康记录风格字段:

  • patient_id:患者唯一标识符
  • age:年龄
  • sex:性别
  • ethnicity:种族
  • height_cm:身高(厘米)
  • weight_kg:体重(千克)
  • bmi:身体质量指数
  • bmi_category:BMI分类
  • conditions:管道符分隔的疾病列表
  • num_visits:临床就诊次数
  • num_labs:实验室结果数量
  • synthetic:始终为True
  • disclaimer:合成数据免责声明

关键差异对比

指标 医院A 医院B
平均年龄 72.8 51.0
女性比例 53.0% 54.3%
平均BMI 28.7 29.2
糖尿病患病率 22.9% 15.1%
高血压患病率 72.9% 52.8%
心力衰竭患病率 8.0% 2.5%
慢性阻塞性肺疾病患病率 10.8% 6.2%
慢性肾脏病患病率 31.5% 17.2%
抑郁症患病率 5.6% 6.5%

设计目的与用途

  • 用于跨人群分布偏移的模型比较。
  • 用于偏差测试和公平性评估。
  • 用于部署模拟。
  • 用于A/B评估。

特性

  • 确定性生成:可重现,在不同运行中产生相同的输出。
  • 合成数据:不包含任何真实的患者数据或受保护的健康信息。
  • 用途限制:旨在用于测试、开发、研究和基准测试,不适用于临床决策、诊断、治疗或患者护理。

版本历史

  • 1.0.2 (2026年3月):添加了00_twin_summary.csv文件,修复了README,更新为100名患者样本。
  • 1.0.1 (2026年3月):首次公开发布。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作