electricsheepafrica/africa-who-estimated-number-of-individuals-in-the-country-requiring
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-number-of-individuals-in-the-country-requiring
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标Estimated number of individuals in the country requiring preventive chemotherapy for onchocerciasis(NTD_ONCHEMO)在非洲国家的国家级观察数据,时间跨度为2013年至2024年。它是Electric Sheep Africa系列的一部分,这是一个统一、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖27个非洲国家,总行数为287行。
This dataset contains country-level observations for the WHO GHO indicator Estimated number of individuals in the country requiring preventive chemotherapy for onchocerciasis (NTD_ONCHEMO) across African nations, spanning 2013–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 27 African nations with a total of 287 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织(WHO)全球卫生观测站(GHO)的开放数据API,聚焦于非洲地区国家层面需要接受盘尾丝虫病预防性化疗的估计人数。由Electric Sheep Africa团队统一整理与再封装,所有观测值均提取自OData接口中精度为浮点数的`NumericValue`字段,而非字符串形式的展示值。数据以Parquet格式存储,并采用一致的列式结构,在可能的情况下还包含了置信区间上下界(`value_low`、`value_high`),从而为后续分析与建模提供可靠的数值基础。数据集覆盖2013至2024年间27个WHO AFRO区域国家的287条记录,每个国家-年份组合对应唯一观测值,未纳入额外的子维度分层。
特点
该数据集具备清晰而规范的结构,核心字段包括指标代码、国家ISO3代码、WHO区域、观测年份以及用于机器学习的主要目标变量`value_numeric`。辅助列如`value_low`与`value_high`提供了不确定性量化的能力,而`value_display`则保留了原始展示字符串以供参考。对于存在分层维度的指标(如性别或居住地类型),`dim1`与`dim2`列允许用户细粒度地筛选所需子群体。所有数据均遵循CC BY 4.0许可协议开放使用,来源权威,且经过标准化处理,特别适合用于非洲卫生领域的分类与回归任务。
使用方法
使用HuggingFace `datasets`库即可快速加载该数据集,调用`load_dataset`函数后,返回的`Dataset`对象可直接转换为Pandas DataFrame进行探索与分析。为获得国家层面的总体估计,可通过过滤`dim1`列中值为`SEX_BTSX`或缺失的记录来实现。如需进行时间序列分析,则可按`country_iso3`与`year`字段进行分组与排序,从而提取特定国家的历年变化趋势。这一简洁的接口设计使得研究人员能够高效地将该数据集纳入各种数据科学工作流与机器学习管线之中。
背景与挑战
背景概述
盘尾丝虫病(onchocerciasis)作为一种被忽视的热带疾病,在撒哈拉以南非洲地区长期构成严峻的公共卫生负担。世界卫生组织(WHO)全球卫生观测站(GHO)自2013年起系统收集并发布了各国需接受预防性化疗的估算人数指标(NTD_ONCHEMO),旨在为疾病控制与消除战略提供量化依据。该数据集由Electric Sheep Africa团队于2024年重新整理并发布在HuggingFace平台,覆盖27个非洲国家2013至2024年的观测数据,共287条记录。通过标准化的Parquet格式和一致的字段结构,该数据集为机器学习模型提供了可直接用于回归或分类任务的清洗后特征,极大降低了数据获取与预处理门槛,成为连接全球卫生数据与人工智能应用的重要桥梁。
当前挑战
该数据集所应对的领域问题核心在于:被忽视热带病(NTDs)的流行病学数据通常分散、异构且更新滞后,难以支撑及时的区域疾病负担评估与干预资源分配。具体挑战包括:其一,不同国家数据报告存在时滞与缺失,部分年份和国家的估算值及其置信区间不完整,增加了时间序列建模和空间插值的复杂性;其二,数据维度单一,缺乏按年龄、性别或城乡分层的细粒度指标,限制了局部风险识别与人群异质性分析;其三,原始WHO数据接口的返回结构在历史版本中存在字段更迭,数据清洗与一致性维护成本高,需要特定的ETL流程才能确保机器学习就绪(ML-ready)状态。
常用场景
经典使用场景
在公共卫生与流行病学的研究领域中,该数据集被广泛用于分析非洲地区盘尾丝虫病(河盲症)的预防性化疗需求规模。研究者通常依托其国家-年度面板结构,对盘尾丝虫病的疾病负担进行时序建模,评估跨国或跨年份的需求变化趋势,并借助置信区间开展不确定性量化。该数据格式统一且经清洗,便于直接输入机器学习模型进行回归或分类任务,尤其适用于对资源匮乏地区传染病防控优先级的量化分析。
实际应用
在公共卫生决策与操作层面,该数据集的实际应用场景主要集中于非洲区域疾病控制项目的资源精准配置。各国卫生部及国际非政府组织可依据该数据估算的化疗需求人数,优化阿苯达唑或伊维菌素等药物的采购与分发计划。同时,数据中的年度时序信息有助于动态监测防控覆盖率的提升效果,从而为世界卫生组织‘被忽视的热带病’消除路线图提供定量化的决策支撑。
衍生相关工作
该数据集衍生出了若干具有影响力的相关工作,尤其是在机器学习驱动的健康预测与时空插值领域。研究者基于此构建了盘尾丝虫病需求的高斯过程回归模型,用以预测数据稀疏国家的缺失值;亦有工作将其与气候、地理特征融合,开展环境驱动因素分析。此外,该数据集成为了Electric Sheep Africa系列项目的基石,催生了统一的非洲健康指标基准库,促进了跨传染病的联合建模研究。
以上内容由遇见数据集搜集并总结生成



