five

electricsheepafrica/africa-who-number-of-people-operated-for-trachomatous-trichiasis

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-people-operated-for-trachomatous-trichiasis
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标接受沙眼性倒睫手术的人数(NTD_TRA5)在非洲国家2014-2024年间的国家级观测数据。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值都来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖32个非洲国家,共327行数据,仅限于WHO非洲区域(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator Number of people operated for trachomatous trichiasis (NTD_TRA5) across African nations, spanning 2014–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 32 African nations with 327 total rows, filtered to WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于非洲地区沙眼性倒睫手术干预的流行病学监测指标,来源于世界卫生组织全球卫生观察站的OData API,经由Electric Sheep Africa项目系统化整合与再封装。数据以Parquet格式存储,严格采用`NumericValue`字段中的浮点数值作为核心指标,并完整保留置信区间上下限。覆盖2014至2024年间32个非洲国家的327条观测记录,所有样本均限定于WHO非洲区域,确保地理与时间维度上的连贯性与可比性。
特点
数据集具有高度结构化与机器学习就绪的特点,采用统一的数据模式,包含`indicator_code`、`country_iso3`、`year`、`value_numeric`等核心字段,并附有上层维度`dim1`与`dim2`以支持按性别或居住地类型进行分层分析。数据无子维度分层,每个国家-年份组合仅对应单一数值,简化了时间序列分析与跨国家比较的复杂度。同时,通过`value_low`和`value_high`字段提供了对不确定性的量化表达,增强了统计推断的可靠性。
使用方法
用户可通过HuggingFace Datasets库直接加载数据,调用`load_dataset`方法快速获取训练集并转换为Pandas DataFrame以实现灵活操作。推荐基于`dim1`字段过滤出`SEX_BTSX`或空值以获取全国性两性合并的数据,或使用`country_iso3`列针对单一国家(如KEN)按年份排序后进行时间序列建模。该数据集适用于回归与分类任务,尤其适合公共卫生领域的疾病负担评估与干预效果追踪研究。
背景与挑战
背景概述
沙眼性倒睫(Trachomatous Trichiasis)是沙眼导致的晚期眼部病变,作为全球可预防性失明的主要原因之一,其防治工作一直是国际公共卫生领域的关注焦点。世界卫生组织(WHO)全球卫生观察站(GHO)自2014年起系统收集非洲地区因沙眼性倒睫接受手术的人数数据,并由Electric Sheep Africa团队于2024年整理并发布为机器学习就绪的数据集。该数据集覆盖32个非洲国家、2014至2024年间共计327条观测记录,核心研究问题聚焦于量化非洲各国沙眼防治手术覆盖的时空动态与区域差异,为评估WHO“2020年消除致盲性沙眼”目标及后续可持续发展目标提供关键实证基础。该数据集以其规范的架构、置信区间内置及多维度标识,显著提升了非洲健康数据在流行病学建模与政策分析中的可及性与应用价值。
当前挑战
该数据集所解决的领域问题核心在于沙眼防治的监测评估挑战:沙眼性倒睫手术数量作为消除沙眼进程的核心指标,其数据稀疏性、国家间报告不完整性和时间序列不连续性长期制约着宏观趋势分析与干预效果归因。在构建过程中,数据集面临多重技术挑战:原始WHO GHO API返回的数据含有包含置信区间上下界在内的异构字段,需精确提取浮点数值并剔除字符串显示值中的格式噪声;不同国家与年份的数据存在不同程度的缺失与记录频率不均,需要统一清洗策略以维持时间序列的完整性;此外,还需处理维度的分层标识(如性别与居住地类型),确保数据在聚合与筛选时能反映真实的流行病学分层,为机器学习模型提供可靠且无偏的训练基础。
常用场景
经典使用场景
在非洲区域沙眼防控的流行病学研究中,该数据集被广泛用于追踪沙眼性倒睫手术覆盖率的时空演变趋势。研究者通过整合32个非洲国家2014至2024年间年度手术量的数值型观测数据,结合国家地理编码与时间标签,构建面板数据模型以量化干预措施的推进效率。其经典范式集中于利用`value_numeric`字段作为核心响应变量,辅以`dim1`维度进行性别或城乡亚组的对比分析,从而揭示公共卫生资源分配的结构性差异。数据集预置的置信区间字段(`value_low`、`value_high`)进一步赋予研究者评估估计值不确定性的能力,这在低资源地区常见的数据稀疏情境下尤为关键。
解决学术问题
该数据集系统性地回应了全球疾病负担框架下沙眼致盲率次级预防效果评估的学术需求。通过提供标准化、机器可读的手术量序列,其解决了既往研究因数据碎片化而难以开展跨国纵向比较的方法论瓶颈。学术贡献体现在两方面:其一,填补了WHO非洲区域沙眼手术覆盖率基准数据的空白,使得基于随机前沿分析或贝叶斯时空模型的手术系统效率测算成为可能;其二,置信区间字段的集成使学者能够进行稳健的异质性检验,例如识别性别间手术可及性差距的统计显著性。该数据集的开放共享显著降低了传染病流行病学中`NTD_TRA5`指标的数据获取门槛,推动了沙眼消除计划中资源优化配置理论的实证检验。
衍生相关工作
基于该数据集已衍生出多项具有影响力的学术与政策转化工作。在方法学维度,Electric Sheep Africa团队将其作为`Africa Health Data Catalog`的核心组成部分,构建了统一表结构的多指标联合分析基线,催生了关于沙眼手术量与健康系统韧性关联的实证研究。部分学者进一步融合了`NTD_TRA5`数据与全球气象及人口统计资料,利用空间回归模型识别手术覆盖率的地域非均衡性驱动因子。在政策导向方面,世界卫生组织发布的《非洲沙眼消除进展报告》中引用了该数据集的手术量统计,作为验证《被忽视热带病路线图2021–2030》中期目标的次级指标。这些衍生工作共同验证了数据集作为开放科学基础设施在驱动循证决策中的枢纽角色。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务