population-india-uttar-pradesh-cohort-100
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/HipAAsynth/population-india-uttar-pradesh-cohort-100
下载链接
链接失效反馈官方服务:
资源简介:
HipAAsynth数据集是一个用于验证的合成数据集,由HipAAsynth生成,旨在模拟真实世界的变异性以评估医疗系统在部署条件下的表现。该数据集代表了一个用于测试和基准测试的受控队列,模拟了患者群体、人口统计分布和共病模式的呈现。数据集设计用于可重复的评估和跨系统的一致比较。数据集包含29个结构化CSV列,涵盖患者标识符、人口统计信息(如年龄、性别、地区类型)、临床诊断(如主要和次要诊断)、医疗支付类型、糖尿病分类、疫苗接种状态、医疗访问权限等。数据集适用于表格分类和表格回归任务,特别适合医疗健康领域的评估和研究。
创建时间:
2026-03-26
原始信息汇总
数据集概述
基本元数据
- 数据集名称: HipAAsynth Dataset
- 托管地址: https://huggingface.co/datasets/HipAAsynth/population-india-uttar-pradesh-cohort-100
- 版本: 1.0.0
- 许可协议: cc-by-nc-4.0
- 数据规模类别: n<1K
- 任务类别: 表格分类、表格回归
- 标签: 医疗健康、电子健康记录、表格数据、评估、确定性
数据集描述
- 性质: 由HipAAsynth生成的验证工件,用于测试和基准评估。
- 目的: 模拟真实世界的变异性,以评估医疗系统在部署条件下的性能。
- 设计原则: 用于可重复评估和跨系统一致比较。
- 模拟内容: 模拟患者群体、人口统计分布和共病模式在不同条件下的呈现。
数据结构
- 格式: 29列结构化CSV文件。
- 数据文件: synthetic_india_uttar_pradesh_sample_100_seed93.csv
- 数据分割: 训练集
字段说明
| 字段名 | 描述 |
|---|---|
| patient_id | 唯一患者标识符 |
| data_type | 数据集类型标识符 |
| country | 来源国家 |
| state | 印度邦 |
| region_type | 城市或农村分类 |
| age | 年龄(岁) |
| sex | 生理性别 |
| language_region | 区域语言组 |
| primary_diagnosis | 主要临床诊断 |
| secondary_diagnosis | 次要临床诊断 |
| payer | 支付方类型(公共/私人/自费) |
| diabetes_type | 糖尿病分类(1型/2型/无) |
| hba1c | 糖化血红蛋白值 |
| bmi | 身体质量指数 |
| anemia | 贫血标志 |
| tb_exposure | 结核病暴露标志 |
| vaccination_covid19 | COVID-19疫苗接种状态 |
| vaccination_polio | 脊髓灰质炎疫苗接种状态 |
| vaccination_bcg | 卡介苗接种状态 |
| healthcare_access_primary | 初级医疗保健可及性 |
| healthcare_access_secondary | 二级医疗保健可及性 |
| healthcare_access_tertiary | 三级医疗保健可及性 |
| anchor_hash | 用于可重复性的SHA-256生成锚点 |
| facility_country | 医疗机构所在国家 |
| data_nature | 数据性质(合成) |
| generated_by | 生成引擎标识符 |
| organization | 发起组织 |
| license_engine | 引擎许可类型 |
| license_data | 数据许可类型 |
搜集汇总
数据集介绍

构建方式
在医疗健康数据科学领域,合成数据生成技术为系统评估提供了可控且可重复的测试环境。本数据集通过HipAAsynth这一确定性验证服务构建,旨在模拟真实世界中的患者群体变异性。其生成过程基于预设的锚点哈希值确保完全可复现性,涵盖了印度北方邦特定人群的年龄、性别、地域类型、语言区域及多种临床诊断与健康指标,形成了一个包含29个结构化字段的表格化队列。
特点
该数据集的核心特点在于其高度结构化的合成性质,专为医疗系统的稳健性评估而设计。它精确模拟了患者人口统计分布、共病模式及医疗可及性等多维度特征,同时严格区分了公共、私人及自费支付者类型。数据集规模虽不足千例,但通过确定的生成机制,保证了跨系统性能比较时的一致性与公平性,尤其适用于对糖尿病分类、疫苗接种状态等关键医疗变量进行表格分类与回归任务的基准测试。
使用方法
作为评估医疗人工智能系统部署表现的验证工具,本数据集主要服务于表格分类与回归任务的研究与实践。使用者可直接加载提供的CSV文件,利用其中的患者标识、临床诊断、实验室指标及社会人口学变量,构建预测模型或进行系统压力测试。其合成特性允许在符合伦理规范的前提下,反复用于验证算法在不同人群特征和医疗场景下的泛化能力与稳定性,尤其适合作为医疗健康数据分析的标准化评测基准。
背景与挑战
背景概述
在医疗健康信息学领域,电子健康记录(EHR)数据的可用性与质量直接影响临床决策支持系统与公共卫生政策的效能。population-india-uttar-pradesh-cohort-100数据集由HipAAsynth工具生成,作为一项验证性成果,其设计初衷在于模拟真实世界中的患者群体变异性,以评估医疗系统在部署环境下的表现。该数据集聚焦于印度北方邦的合成队列,涵盖了人口统计学分布、共病模式及医疗可及性等多维特征,旨在为医疗人工智能系统提供可重复的测试基准,推动健康公平性与系统鲁棒性研究。
当前挑战
该数据集致力于应对医疗人工智能在真实世界部署中的泛化性与公平性挑战,其核心问题在于如何确保模型在不同人口亚群、地域及医疗资源条件下的稳定性能。构建过程中的挑战主要体现为合成数据的真实性模拟,需在保持统计分布合理性的同时,兼顾患者隐私保护与数据可重复生成;此外,跨医疗体系、支付方式及语言文化差异的变量整合,也对数据结构的代表性与评估一致性提出了较高要求。
常用场景
经典使用场景
在医疗健康信息学领域,合成数据集的构建对于模型验证至关重要。该数据集作为HipAAsynth生成的验证工件,专为表格分类与回归任务设计,模拟了印度北方邦患者群体的真实变异性。其经典使用场景在于为医疗系统部署提供可控的测试环境,通过包含年龄、性别、诊断、医疗可及性等多维特征,支持研究人员对算法在多样化人口统计和共病模式下的性能进行可重复评估与基准测试。
实际应用
在实际医疗系统开发与政策评估中,该数据集扮演着关键角色。它被广泛应用于模拟特定区域(如印度北方邦的城乡地区)的医疗保健场景,帮助评估初级、二级和三级医疗可及性对健康结果的影响。医疗机构与技术开发者可利用其合成但贴近现实的数据,在不触及真实患者隐私的前提下,测试诊断模型、资源规划工具或支付方策略的稳健性与公平性,从而优化部署方案并降低实际应用风险。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在医疗合成数据生成与验证方法学上。HipAAsynth引擎本身便是一项代表性工作,它确立了确定性合成队列的生成范式。后续研究常以此数据集为基准,拓展至更广泛的流行病学模拟、健康公平性评估以及跨国家医疗系统比较。这些工作不仅深化了对合成数据在医疗评估中效用的理解,也催生了针对特定疾病(如糖尿病、结核病)或人口亚群(如不同语言区域、支付类型)的精细化建模与干预策略分析。
以上内容由遇见数据集搜集并总结生成



