population-india-maharashtra-cohort-100
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/HipAAsynth/population-india-maharashtra-cohort-100
下载链接
链接失效反馈官方服务:
资源简介:
HipAAsynth数据集是一个用于测试和验证的合成数据集,旨在模拟真实世界中的变异性以评估医疗系统在部署条件下的表现。该数据集代表一个受控队列,用于测试和基准测试,模拟患者群体、人口统计分布和共病模式的条件。数据集包含29个结构化字段,涵盖患者ID、人口统计信息、临床诊断、支付类型、疫苗接种状态等多个方面。数据集规模较小(小于1K样本),采用cc-by-nc-4.0许可协议。适用于表格分类和回归任务,特别适合医疗健康领域的评估和研究。
创建时间:
2026-03-26
原始信息汇总
数据集概述
基本信息
- 数据集名称: HipAAsynth Dataset
- 托管地址: https://huggingface.co/datasets/HipAAsynth/population-india-maharashtra-cohort-100
- 版本: 1.0.0
- 许可协议: cc-by-nc-4.0
- 大小类别: n<1K
- 任务类别: 表格分类、表格回归
- 标签: 医疗保健、电子健康记录、表格数据、评估、确定性
数据集描述
该数据集是由HipAAsynth生成的验证工件。HipAAsynth是一项确定性测试和验证服务,通过模拟真实世界的变异性来评估医疗保健系统在部署条件下的表现。该数据集代表一个用于测试和基准测试的受控队列,旨在模拟以下方面的条件呈现:
- 患者群体
- 人口统计分布
- 共病模式 数据集设计用于可重复的评估和跨系统的一致比较。
数据内容与结构
- 数据文件: synthetic_india_maharashtra_sample_100_seed91.csv
- 数据格式: 结构化CSV
- 列数: 29列
数据模式
| 列名 | 描述 |
|---|---|
| patient_id | 唯一患者标识符 |
| data_type | 数据集类型标识符 |
| country | 来源国家 |
| state | 印度邦 |
| region_type | 城市或农村分类 |
| age | 年龄(岁) |
| sex | 生物性别 |
| language_region | 区域语言组 |
| primary_diagnosis | 主要临床诊断 |
| secondary_diagnosis | 次要临床诊断 |
| payer | 支付方类型(公共/私人/自费) |
| diabetes_type | 糖尿病分类(1型/2型/无) |
| hba1c | 糖化血红蛋白值 |
| bmi | 身体质量指数 |
| anemia | 贫血标志 |
| tb_exposure | 结核病暴露标志 |
| vaccination_covid19 | COVID-19疫苗接种状态 |
| vaccination_polio | 脊髓灰质炎疫苗接种状态 |
| vaccination_bcg | 卡介苗疫苗接种状态 |
| healthcare_access_primary | 初级医疗保健可及性 |
| healthcare_access_secondary | 二级医疗保健可及性 |
| healthcare_access_tertiary | 三级医疗保健可及性 |
| anchor_hash | 用于可重复性的SHA-256生成锚点 |
| facility_country | 设施所在国家 |
| data_nature | 数据性质(合成) |
| generated_by | 生成引擎标识符 |
| organization | 发起组织 |
| license_engine | 引擎许可类型 |
| license_data | 数据许可类型 |
搜集汇总
数据集介绍

构建方式
在医疗健康信息学领域,合成数据生成技术为系统评估提供了可控且可重复的测试环境。本数据集由HipAAsynth这一确定性验证服务构建,旨在模拟真实世界中的患者群体变异性。其生成过程基于预设的锚点哈希值,确保数据生成的完全可复现性。该合成队列模拟了印度马哈拉施特拉邦的特定人群,涵盖了人口统计学分布、共病模式及医疗可及性等多个维度,共计包含29个结构化字段,生成了规模小于千例的样本,专门用于医疗系统在部署条件下的性能评估与基准测试。
特点
该数据集的核心特征在于其高度结构化的合成性质与明确的评估导向。数据以表格形式呈现,包含患者标识、诊断信息、临床指标、疫苗接种记录及医疗可及性等多维度变量,适用于分类与回归任务。其合成生成机制确保了数据的一致性和确定性,避免了真实患者数据的隐私与合规风险。数据集标签明确指向医疗保健与电子健康记录领域,并强调了其用于评估的用途,为不同医疗分析系统提供了稳定、可比的测试基准,尤其适合检验算法在模拟人口与临床模式下的稳健性。
使用方法
对于研究人员与开发者而言,该数据集主要服务于医疗人工智能系统的验证与性能评测。用户可通过加载提供的CSV文件直接访问数据,利用其结构化字段进行表格分类或回归模型的训练与测试。数据集内置的确定性特性允许在不同实验中进行完全一致的重复验证,这对于衡量系统在模拟的特定患者队列(如特定地域、支付方类型或疾病谱系)下的表现至关重要。在使用时,需遵循其标注的CC-BY-NC-4.0许可协议,并注意其合成数据的本质,适用于方法学评估而非直接的临床决策支持。
背景与挑战
背景概述
在医疗健康信息学领域,电子健康记录(EHR)数据的标准化与可重复性评估一直是推动临床决策支持系统发展的核心议题。population-india-maharashtra-cohort-100数据集由HipAAsynth服务生成,作为一个验证性工具,其设计旨在模拟印度马哈拉施特拉邦患者群体的真实变异性。该数据集通过确定性合成方法,构建了一个包含人口统计、疾病诊断、医疗可及性等多维特征的结构化队列,专注于评估医疗系统在部署环境下的性能表现。其创建体现了对医疗人工智能模型鲁棒性与泛化能力进行系统化测试的研究需求,为跨地域、跨人群的医疗数据分析提供了可比较的基准。
当前挑战
该数据集致力于解决医疗健康领域中基于表格数据的分类与回归任务的评估挑战,尤其是在合成数据环境下模拟真实世界患者队列的复杂性。具体挑战包括:在领域问题层面,如何准确捕捉印度特定地区(如马哈拉施特拉邦)的人口健康特征,包括糖尿病分型、结核病暴露、疫苗接种模式等临床变量的分布,以及医疗可及性差异对健康结局的影响;在构建过程中,挑战涉及生成具有统计一致性与临床合理性的合成数据,同时确保数据的确定性可重复,以支持跨系统公平比较,并平衡隐私保护(通过合成数据避免真实患者信息泄露)与数据实用性之间的张力。
常用场景
经典使用场景
在医疗健康数据分析领域,该数据集作为HipAAsynth生成的验证工具,主要用于模拟印度马哈拉施特拉邦的特定患者群体,以评估医疗系统在部署环境下的表现。通过包含年龄、性别、诊断、支付方式等多维特征,它为研究人员提供了一个标准化的测试平台,用于重复性实验和系统性能比较,尤其在处理结构化表格数据时,能够确保评估过程的一致性和可复现性。
衍生相关工作
基于该数据集衍生的经典工作主要集中在医疗合成数据生成与验证框架的扩展上,例如开发更精细的模拟算法以捕捉区域特异性疾病分布,或将其整合到跨国家医疗系统比较研究中。这些工作不仅深化了对合成数据在医疗评估中应用的理解,还催生了新的标准化测试协议,为全球健康数据分析领域的工具创新提供了重要参考。
数据集最近研究
最新研究方向
在医疗健康数据分析领域,合成数据生成技术正成为应对真实患者数据隐私与获取限制的关键手段。该数据集作为HipAAsynth服务生成的验证工具,聚焦于模拟印度马哈拉施特拉邦的特定人群队列,其结构化特征涵盖了人口统计、临床诊断、共病模式及医疗可及性等多维变量。前沿研究主要围绕合成数据在电子健康记录系统评估中的可靠性验证展开,探索其在医疗公平性分析、疾病负担预测模型测试以及跨区域医疗政策仿真中的应用潜力。相关热点事件包括全球范围内对合成数据在医疗AI伦理审查中的标准化讨论,以及其在低资源地区医疗资源优化配置模拟中的实践案例。这一研究方向不仅推动了医疗系统部署前的稳健性评估,也为在严格遵守数据隐私法规的前提下,加速医疗人工智能的研发与落地提供了可重复、可比较的基准框架,具有重要的方法论意义和实践价值。
以上内容由遇见数据集搜集并总结生成



