population-india-west-bengal-cohort-100

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/HipAAsynth/population-india-west-bengal-cohort-100

下载链接

链接失效反馈

官方服务：

资源简介：

HipAAsynth数据集是一个用于验证的合成数据集，旨在模拟真实世界的变异性以评估医疗系统在部署条件下的表现。该数据集代表一个用于测试和基准测试的受控队列，模拟患者群体、人口统计分布和共病模式的条件。数据集设计用于可重复的评估和跨系统的一致比较。数据以结构化CSV格式呈现，包含29个字段，涵盖患者标识符、人口统计信息、临床诊断、支付类型、疫苗接种状态、医疗资源获取情况等多个维度。数据集规模小于1K样本，适用于表格分类和回归任务，特别适合医疗健康领域的评估和研究。数据使用cc-by-nc-4.0许可证发布。

创建时间：

2026-03-26

原始信息汇总

数据集概述

基本信息

数据集名称: HipAAsynth Dataset
托管地址: https://huggingface.co/datasets/HipAAsynth/population-india-west-bengal-cohort-100
版本: 1.0.0
许可协议: cc-by-nc-4.0
大小类别: n<1K
任务类别: 表格分类、表格回归
标签: 医疗保健、电子健康记录、表格数据、评估、确定性

数据描述

该数据集是由HipAAsynth生成的验证工件。HipAAsynth是一个确定性测试和验证服务，用于模拟真实世界的变异性，以评估医疗保健系统在部署条件下的表现。

此数据集代表一个用于测试和基准测试的受控队列。HipAAsynth生成队列以模拟以下方面的表现情况：

患者群体
人口统计分布
共病模式

数据集专为可重复的评估和跨系统的一致比较而设计。

数据结构

格式: 29列结构化CSV文件
数据文件: synthetic_india_west_bengal_sample_100_seed94.csv (训练集)

列定义

列名	描述
patient_id	唯一患者标识符
data_type	数据集类型标识符
country	来源国家
state	印度邦
region_type	城市或农村分类
age	年龄（岁）
sex	生理性别
language_region	区域语言组
primary_diagnosis	主要临床诊断
secondary_diagnosis	次要临床诊断
payer	支付方类型（公共/私人/自费）
diabetes_type	糖尿病分类（1型/2型/无）
hba1c	血红蛋白A1c值
bmi	身体质量指数
anemia	贫血标志
tb_exposure	结核病暴露标志
vaccination_covid19	COVID-19疫苗接种状态
vaccination_polio	脊髓灰质炎疫苗接种状态
vaccination_bcg	卡介苗疫苗接种状态
healthcare_access_primary	初级医疗保健可及性
healthcare_access_secondary	二级医疗保健可及性
healthcare_access_tertiary	三级医疗保健可及性
anchor_hash	用于可重复性的SHA-256生成锚点
facility_country	设施所在国家
data_nature	数据性质（合成）
generated_by	生成引擎标识符
organization	发起组织
license_engine	引擎许可类型
license_data	数据许可类型

搜集汇总

数据集介绍

构建方式

在医疗健康信息学领域，合成数据生成技术为系统评估提供了可控且符合伦理的测试环境。本数据集通过HipAAsynth这一确定性验证服务构建，旨在模拟印度西孟加拉邦患者群体的真实变异性。其生成过程基于预设的人口统计学分布、共病模式及医疗可及性等参数，采用确定性算法确保每次生成的数据具有高度可重复性。数据集以结构化CSV格式呈现，包含29个字段，涵盖了从患者标识、临床诊断到医疗支付方式等多维度信息，并通过SHA-256锚定哈希保障了生成轨迹的可追溯性。

特点

该数据集的核心特征在于其高度受控的合成性质与医疗评估的针对性设计。作为专用于医疗系统测试的基准工具，它精确模拟了特定地域的流行病学特征，包括糖尿病分型、结核病暴露风险及疫苗接种状态等关键临床指标。数据集中所有变量均经过标准化定义，确保了跨系统比较时的一致性。其小规模样本特性（少于1000条记录）特别适合快速验证与迭代测试，同时严格遵循CC-BY-NC-4.0许可协议，在促进研究开放性的同时保护了数据合规边界。

使用方法

在医疗人工智能系统的开发与验证流程中，本数据集主要服务于表格分类与回归任务的性能评估。研究人员可将其导入标准机器学习框架，通过患者特征预测临床结局或评估医疗可及性的影响因素。使用时应重点关注其合成数据的本质，将测试结果视为系统在模拟环境下的表现指标，而非真实临床场景的直接推论。建议配合原始代码库中的生成锚定哈希进行版本控制，以确保实验的可复现性，并严格遵循非商业许可条款进行学术用途的探索。

背景与挑战

背景概述

在医疗健康信息学领域，合成数据生成技术正逐渐成为评估和验证医疗系统性能的关键工具。population-india-west-bengal-cohort-100数据集由HipAAsynth平台创建，作为一个确定性测试与验证服务，该数据集旨在模拟印度西孟加拉邦地区患者群体的真实变异性，涵盖人口统计分布、共病模式及医疗可及性等多维特征。其核心研究问题聚焦于通过可控队列数据，系统评估医疗系统在部署条件下的稳健性与一致性，为跨系统比较提供可重复的基准测试环境，从而推动医疗人工智能模型在真实世界应用中的可靠性验证。

当前挑战

该数据集致力于解决医疗电子健康记录（EHR）分析中面临的泛化性与公平性挑战，特别是在资源有限地区如印度西孟加拉邦，如何准确捕捉人口异质性、疾病共现模式及医疗资源分布不均等问题。在构建过程中，挑战主要体现于合成数据的真实性模拟，需在保持统计分布合理性的同时，确保患者属性（如年龄、诊断、疫苗接种状态）的临床合理性，并避免隐私泄露风险；此外，跨医疗层级（初级、二级、三级）的可及性指标建模也需反映地区特异性，以支持对医疗系统效能的精准评估。

常用场景

经典使用场景

在医疗健康数据分析领域，该数据集作为HipAAsynth服务生成的验证工具，主要用于模拟印度西孟加拉邦特定人群的医疗记录变异性。其经典使用场景涉及对电子健康记录系统的性能评估，通过构建包含人口统计学特征、疾病诊断、医疗支付方式及疫苗接种状态等多维信息的结构化表格，为研究人员提供了一个可控的测试队列，用以检验医疗预测模型在真实世界部署条件下的鲁棒性与一致性。

解决学术问题

该数据集致力于解决医疗人工智能研究中数据稀缺性与隐私保护之间的平衡问题。通过生成具有确定性的合成数据，它使得学者能够在无需接触敏感真实患者信息的前提下，开展可重复的横向比较研究。其意义在于为评估医疗系统在不同人群、共病模式及医疗可及性条件下的表现提供了标准化基准，从而推动医疗决策支持工具在多样化临床环境中的可靠应用。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在医疗合成数据生成与验证方法学上。许多研究借鉴其确定性生成框架，开发了针对不同疾病谱系或地理区域的扩展合成数据集，用于训练更稳健的疾病风险预测模型。同时，该数据集也常作为基准工具，出现在医疗人工智能系统公平性评估与偏差检测的相关文献中，促进了跨系统性能比较的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集