population-india-maharashtra-cohort-100

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/HipAAsynth/population-india-maharashtra-cohort-100

下载链接

链接失效反馈

官方服务：

资源简介：

HipAAsynth数据集是一个用于测试和验证的合成数据集，旨在模拟真实世界中的变异性以评估医疗系统在部署条件下的表现。该数据集代表一个受控队列，用于测试和基准测试，模拟患者群体、人口统计分布和共病模式的条件。数据集包含29个结构化字段，涵盖患者ID、人口统计信息、临床诊断、支付类型、疫苗接种状态等多个方面。数据集规模较小（小于1K样本），采用cc-by-nc-4.0许可协议。适用于表格分类和回归任务，特别适合医疗健康领域的评估和研究。

创建时间：

2026-03-26

原始信息汇总

数据集概述

基本信息

数据集名称: HipAAsynth Dataset
托管地址: https://huggingface.co/datasets/HipAAsynth/population-india-maharashtra-cohort-100
版本: 1.0.0
许可协议: cc-by-nc-4.0
大小类别: n<1K
任务类别: 表格分类、表格回归
标签: 医疗保健、电子健康记录、表格数据、评估、确定性

数据集描述

该数据集是由HipAAsynth生成的验证工件。HipAAsynth是一项确定性测试和验证服务，通过模拟真实世界的变异性来评估医疗保健系统在部署条件下的表现。该数据集代表一个用于测试和基准测试的受控队列，旨在模拟以下方面的条件呈现：

患者群体
人口统计分布
共病模式数据集设计用于可重复的评估和跨系统的一致比较。

数据内容与结构

数据文件: synthetic_india_maharashtra_sample_100_seed91.csv
数据格式: 结构化CSV
列数: 29列

数据模式

列名	描述
patient_id	唯一患者标识符
data_type	数据集类型标识符
country	来源国家
state	印度邦
region_type	城市或农村分类
age	年龄（岁）
sex	生物性别
language_region	区域语言组
primary_diagnosis	主要临床诊断
secondary_diagnosis	次要临床诊断
payer	支付方类型（公共/私人/自费）
diabetes_type	糖尿病分类（1型/2型/无）
hba1c	糖化血红蛋白值
bmi	身体质量指数
anemia	贫血标志
tb_exposure	结核病暴露标志
vaccination_covid19	COVID-19疫苗接种状态
vaccination_polio	脊髓灰质炎疫苗接种状态
vaccination_bcg	卡介苗疫苗接种状态
healthcare_access_primary	初级医疗保健可及性
healthcare_access_secondary	二级医疗保健可及性
healthcare_access_tertiary	三级医疗保健可及性
anchor_hash	用于可重复性的SHA-256生成锚点
facility_country	设施所在国家
data_nature	数据性质（合成）
generated_by	生成引擎标识符
organization	发起组织
license_engine	引擎许可类型
license_data	数据许可类型

搜集汇总

数据集介绍

构建方式

在医疗健康信息学领域，合成数据生成技术为系统评估提供了可控且可重复的测试环境。本数据集由HipAAsynth这一确定性验证服务构建，旨在模拟真实世界中的患者群体变异性。其生成过程基于预设的锚点哈希值，确保数据生成的完全可复现性。该合成队列模拟了印度马哈拉施特拉邦的特定人群，涵盖了人口统计学分布、共病模式及医疗可及性等多个维度，共计包含29个结构化字段，生成了规模小于千例的样本，专门用于医疗系统在部署条件下的性能评估与基准测试。

特点

该数据集的核心特征在于其高度结构化的合成性质与明确的评估导向。数据以表格形式呈现，包含患者标识、诊断信息、临床指标、疫苗接种记录及医疗可及性等多维度变量，适用于分类与回归任务。其合成生成机制确保了数据的一致性和确定性，避免了真实患者数据的隐私与合规风险。数据集标签明确指向医疗保健与电子健康记录领域，并强调了其用于评估的用途，为不同医疗分析系统提供了稳定、可比的测试基准，尤其适合检验算法在模拟人口与临床模式下的稳健性。

使用方法

对于研究人员与开发者而言，该数据集主要服务于医疗人工智能系统的验证与性能评测。用户可通过加载提供的CSV文件直接访问数据，利用其结构化字段进行表格分类或回归模型的训练与测试。数据集内置的确定性特性允许在不同实验中进行完全一致的重复验证，这对于衡量系统在模拟的特定患者队列（如特定地域、支付方类型或疾病谱系）下的表现至关重要。在使用时，需遵循其标注的CC-BY-NC-4.0许可协议，并注意其合成数据的本质，适用于方法学评估而非直接的临床决策支持。

背景与挑战

背景概述

在医疗健康信息学领域，电子健康记录（EHR）数据的标准化与可重复性评估一直是推动临床决策支持系统发展的核心议题。population-india-maharashtra-cohort-100数据集由HipAAsynth服务生成，作为一个验证性工具，其设计旨在模拟印度马哈拉施特拉邦患者群体的真实变异性。该数据集通过确定性合成方法，构建了一个包含人口统计、疾病诊断、医疗可及性等多维特征的结构化队列，专注于评估医疗系统在部署环境下的性能表现。其创建体现了对医疗人工智能模型鲁棒性与泛化能力进行系统化测试的研究需求，为跨地域、跨人群的医疗数据分析提供了可比较的基准。

当前挑战

该数据集致力于解决医疗健康领域中基于表格数据的分类与回归任务的评估挑战，尤其是在合成数据环境下模拟真实世界患者队列的复杂性。具体挑战包括：在领域问题层面，如何准确捕捉印度特定地区（如马哈拉施特拉邦）的人口健康特征，包括糖尿病分型、结核病暴露、疫苗接种模式等临床变量的分布，以及医疗可及性差异对健康结局的影响；在构建过程中，挑战涉及生成具有统计一致性与临床合理性的合成数据，同时确保数据的确定性可重复，以支持跨系统公平比较，并平衡隐私保护（通过合成数据避免真实患者信息泄露）与数据实用性之间的张力。

常用场景

经典使用场景

在医疗健康数据分析领域，该数据集作为HipAAsynth生成的验证工具，主要用于模拟印度马哈拉施特拉邦的特定患者群体，以评估医疗系统在部署环境下的表现。通过包含年龄、性别、诊断、支付方式等多维特征，它为研究人员提供了一个标准化的测试平台，用于重复性实验和系统性能比较，尤其在处理结构化表格数据时，能够确保评估过程的一致性和可复现性。

衍生相关工作

基于该数据集衍生的经典工作主要集中在医疗合成数据生成与验证框架的扩展上，例如开发更精细的模拟算法以捕捉区域特异性疾病分布，或将其整合到跨国家医疗系统比较研究中。这些工作不仅深化了对合成数据在医疗评估中应用的理解，还催生了新的标准化测试协议，为全球健康数据分析领域的工具创新提供了重要参考。

数据集最近研究