population-india-tamil-nadu-cohort-100
收藏Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/HipAAsynth/population-india-tamil-nadu-cohort-100
下载链接
链接失效反馈官方服务:
资源简介:
HipAAsynth数据集是由HipAAsynth服务生成的验证性人工数据集,用于评估医疗系统在部署条件下的表现。该数据集通过确定性方法模拟真实世界的变异性,包含受控的患者队列数据,可重复用于系统测试和基准评估。数据集采用结构化CSV格式,包含29个字段,涵盖患者ID、人口统计学特征(年龄、性别、地区)、临床诊断(主要/次要诊断、糖尿病类型)、生物指标(HbA1c、BMI)、疫苗接种状态、医疗可及性等核心医疗维度。特别模拟了印度泰米尔纳德邦的患者群体,包含城乡分类、区域语言组等地域特征。数据集规模小于1000样本,适用于医疗健康领域的表格分类和回归任务,具有明确的数据生成溯源信息(包括SHA-256生成锚点)和CC-BY-NC-4.0许可协议。
创建时间:
2026-03-26
原始信息汇总
数据集概述
基本信息
- 数据集名称: HipAAsynth Dataset
- 托管地址: https://huggingface.co/datasets/HipAAsynth/population-india-tamil-nadu-cohort-100
- 版本: 1.0.0
- 许可证: cc-by-nc-4.0
- 大小类别: n<1K
- 任务类别: 表格分类、表格回归
- 标签: 医疗保健、电子健康记录、表格数据、评估、确定性
数据描述
该数据集是由HipAAsynth生成的验证工件。HipAAsynth是一项确定性测试和验证服务,通过模拟真实世界的变异性来评估医疗保健系统在部署条件下的性能。
此数据集代表一个用于测试和基准测试的受控队列。HipAAsynth生成队列以模拟以下方面的状况呈现:
- 患者群体
- 人口统计分布
- 共病模式
数据集设计用于可重复的评估和跨系统的一致比较。
数据结构
- 格式: 结构化CSV文件
- 文件: synthetic_india_tamil_nadu_sample_100_seed92.csv
- 分割: 训练集
- 列数: 29列
数据模式(Schema)
| 列名 | 描述 |
|---|---|
| patient_id | 唯一患者标识符 |
| data_type | 数据集类型标识符 |
| country | 来源国家 |
| state | 印度邦 |
| region_type | 城市或农村分类 |
| age | 年龄(岁) |
| sex | 生物性别 |
| language_region | 区域语言组 |
| primary_diagnosis | 主要临床诊断 |
| secondary_diagnosis | 次要临床诊断 |
| payer | 支付方类型(公共/私人/自费) |
| diabetes_type | 糖尿病分类(1型/2型/无) |
| hba1c | 血红蛋白A1c值 |
| bmi | 身体质量指数 |
| anemia | 贫血标志 |
| tb_exposure | 结核病暴露标志 |
| vaccination_covid19 | COVID-19疫苗接种状态 |
| vaccination_polio | 脊髓灰质炎疫苗接种状态 |
| vaccination_bcg | 卡介苗疫苗接种状态 |
| healthcare_access_primary | 初级医疗保健可及性 |
| healthcare_access_secondary | 二级医疗保健可及性 |
| healthcare_access_tertiary | 三级医疗保健可及性 |
| anchor_hash | 用于可重复性的SHA-256生成锚点 |
| facility_country | 设施所在国家 |
| data_nature | 数据性质(合成) |
| generated_by | 生成引擎标识符 |
| organization | 发起组织 |
| license_engine | 引擎许可证类型 |
| license_data | 数据许可证类型 |
搜集汇总
数据集介绍

构建方式
在医疗健康数据科学领域,合成数据生成技术正成为评估模型稳健性的关键工具。本数据集采用HipAAsynth这一确定性测试与验证服务构建,通过模拟真实世界中的患者群体变异性来生成受控队列。生成过程基于预设的人口统计学分布、共病模式及临床诊断特征,确保数据在模拟印度泰米尔纳德邦人口背景下的代表性。所有记录均通过SHA-256锚点哈希实现可复现性,严格遵循结构化CSV格式,包含29个涵盖临床、人口统计及医疗可及性等维度的字段,为医疗系统的部署前评估提供了标准化的测试基准。
特点
该数据集的核心特征体现在其高度结构化的合成医疗记录设计上。数据集中包含100条患者记录,每条记录均整合了年龄、性别、区域类型、主要与次要诊断、糖尿病分类及疫苗接种状态等多维度临床属性。特别值得注意的是,数据集明确标注了医疗可及性层级(初级、次级、三级护理)与支付方类型,这为评估医疗公平性与资源分配模型提供了关键变量。所有数据均带有“合成”性质标识,并附有完整的生成元数据,包括生成引擎、许可类型及组织来源,确保了数据使用的透明性与合规性,尤其适用于在受控环境下进行表格分类与回归任务的基准测试。
使用方法
该数据集主要服务于医疗人工智能系统的验证与性能评测。研究人员可将其用于表格分类任务,例如基于人口统计与临床特征预测疾病类型或支付方类别;亦可用于回归分析,如依据生理指标预测HbA1c值。在使用前,需确认数据遵循CC-BY-NC-4.0许可协议,仅限于非商业用途。数据以单一CSV文件提供,可直接加载至主流数据分析框架中进行探索。鉴于其合成性与确定性,该数据集特别适合作为对照基准,用于比较不同模型在模拟真实医疗场景下的泛化能力与偏差表现,但应注意其结果需在真实临床数据上进一步验证。
背景与挑战
背景概述
在医疗健康信息学领域,合成数据生成技术正逐渐成为评估医疗系统性能的关键工具。population-india-tamil-nadu-cohort-100数据集由HipAAsynth服务创建,作为一个确定性测试与验证的人工产物,旨在模拟真实世界中的变异性,以检验医疗系统在部署环境下的表现。该数据集聚焦于印度泰米尔纳德邦的特定人群队列,通过模拟患者群体、人口统计分布及共病模式,为医疗系统的可重复评估和跨系统一致比较提供了标准化基准。其核心研究问题在于如何利用合成数据有效反映现实医疗场景的复杂性,从而推动医疗人工智能模型的稳健性与泛化能力评估,对提升医疗数据隐私保护与系统测试效率具有重要影响力。
当前挑战
该数据集旨在解决医疗电子健康记录(EHR)分析中的领域挑战,特别是在资源有限地区如印度泰米尔纳德邦,如何准确建模人群健康特征并评估医疗干预效果。挑战包括:模拟多样化的患者人口统计学属性、疾病共病模式及医疗可及性差异,同时确保合成数据在统计分布上与真实数据保持一致,以避免评估偏差。在构建过程中,挑战涉及生成具有高度可控性和可重复性的合成队列,需平衡数据隐私保护(通过合成方法避免使用真实患者信息)与临床真实性,并处理多变量医疗特征(如糖尿病分类、疫苗接种状态等)之间的复杂关联,以支持可靠的分类与回归任务评估。
常用场景
经典使用场景
在医疗健康数据分析领域,该数据集作为验证工具,主要用于模拟印度泰米尔纳德邦特定人群的临床特征,以评估医疗预测模型的稳健性。研究者通过其结构化表格数据,能够系统测试分类与回归算法在模拟真实世界变异条件下的表现,例如预测糖尿病并发症或医疗资源可及性,从而确保模型在部署前具备可靠的泛化能力。
实际应用
在实际医疗系统部署中,该数据集可用于验证临床决策支持工具或资源分配模型在特定地域环境下的适用性。例如,医疗机构可借助其模拟的城乡差异、支付类型和疫苗接种状态等变量,优化初级到三级医疗服务的可及性规划,或评估公共卫生干预措施在模拟人群中的潜在效果,从而降低真实世界试验的风险与成本。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在合成数据生成与医疗评估方法的创新上。例如,基于HipAAsynth框架的研究扩展了确定性测试在电子健康记录分析中的应用,促进了跨系统性能比较的标准化协议发展;同时,其合成队列设计也启发了针对低收入地区慢性病管理的模拟研究,为全球健康公平性议题提供了数据驱动的见解。
以上内容由遇见数据集搜集并总结生成



