five

electricsheepafrica/africa-who-population-in-areas-that-warrant-treatment-with-antibiotics

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-population-in-areas-that-warrant-treatment-with-antibiotics
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2013年至2024年期间,世界卫生组织全球健康观察指标(NTD_7)的国家级观察数据,即需要抗生素治疗、面部清洁和环境改善以消除沙眼作为公共卫生问题的人口。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator Population in areas that warrant treatment with antibiotics, facial cleanliness and environmental improvement for elimination of trachoma as a public health problem (NTD_7) across African nations, spanning 2013–2024. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区需接受抗生素治疗、面部清洁及环境改善以消除沙眼这一公共卫生问题的人口指标(代码NTD_7)。数据经过系统化整理,以Parquet格式存储并保持统一的数据模式,所有数值均取自浮点精度字段NumericValue,同时附带了置信区间上下限(value_low和value_high)。数据集覆盖了2013年至2024年间32个非洲国家的347条观测记录,通过WHO AFRO区域代码筛选确保区域一致性。
特点
该数据集的核心特点在于其专注于非洲地区沙眼消除工作中需干预的人口规模,提供了一个单一维度(每国家/年)的精确数值指标,无子维度分层。数据包含了点估计值及置信区间,为机器学习模型的回归或分类任务提供了高质量的目标变量。此外,数据集还整合了国家ISO代码、WHO区域信息及更新时间戳,便于跨国家、跨时间序列的分析与建模,且采用CC BY 4.0许可,适合学术研究与公共健康应用。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用load_dataset函数即可将其转为Pandas DataFrame以进行进一步分析。建议根据dim1字段筛选出性别为双性(SEX_BTSX)或缺失值的行,以获取国家层面的总体数据。对于时间序列分析,可按国家代码(如country_iso3='KEN')过滤并按年份排序,从而追踪特定国家沙眼干预人口的变化趋势。数据可直接用于回归预测或分类模型,如评估非洲各国沙眼控制措施的成效。
背景与挑战
背景概述
沙眼作为全球可预防性失明的主要感染性病因,在非洲地区仍构成严峻的公共卫生威胁。世界卫生组织(WHO)自2013年起通过全球卫生观测站系统追踪'需要抗生素治疗、面部清洁及环境改善以消除沙眼这一公共卫生问题的人群数量'(指标代码NTD_7),旨在为'SAFE'策略(手术、抗生素、面部清洁、环境改善)的实施提供量化依据。该数据集由Electric Sheep Africa团队于2024年重新整理发布,涵盖32个非洲国家2013至2024年间的347条国家级观测记录,数据来源为WHO GHO公开API,并以机器学习友好的Parquet格式统一存储。作为首个聚焦非洲地区沙眼治疗需求人群的标准化数据集,它不仅填补了区域健康指标在人工智能应用中的结构化数据空白,更为评估消除沙眼公共卫生目标的进展提供了跨时空的可比性基础。
当前挑战
该数据集所解决的领域问题核心在于:沙眼作为被忽视的热带病,其消除进程需要精准量化治疗需求人群的时空分布,而传统报告形式的数据难以直接用于机器学习建模。为此,构建过程面临多重挑战:其一,原始WHO数据存在分层结构(如按性别、城乡分类),需统一转换为扁平化、行列对齐的表格形式以避免信息损失;其二,指标值以字符串形式呈现(如'58.3 [57.7–59.0]'),必须解析为数值型点估计及置信区间,同时处理缺失值问题;其三,国家代码、区域分类等元数据需在不同年份间保持一致性,以支持跨时序列分析;此外,数据规模仅347条,远低于典型深度学习需求,需在统计建模或迁移学习中谨慎处理小样本偏差与过拟合风险。
常用场景
经典使用场景
该数据集主要服务于沙眼这一被忽视的热带病(NTD)的流行病学监测与干预评估。研究人员可利用其提供的、涵盖2013至2024年间32个非洲国家的年度国家层面数据,追踪特定区域内需要实施抗生素治疗、面部清洁及环境改善(SAFE策略)的沙眼高风险人群规模。其经典用途在于构建时间序列模型或进行跨国比较,以量化不同国家在消除沙眼这一公共卫生问题上的进展,是评估全球NTD控制计划在非洲大陆实施效果的核心数据源。
解决学术问题
该数据集有效解决了长期以来非洲沙眼负担数据碎片化、标准不一的核心学术难题。它通过统一从WHO全球卫生观测站提取并标准化指标NTD_7,为流行病学模型、统计回归分析及机器学习预测提供了结构化、可复现的基础。研究者可借此分析沙眼干预需求与各国卫生系统能力、经济发展水平之间的关联,填补了关于SAFE策略在资源有限环境中覆盖缺口与疗效评估的空白,为优化疾病消除策略提供了关键的实证依据。
衍生相关工作
围绕这一数据集已衍生出多项具有影响力的学术工作,涵盖时空建模、干预仿真及健康经济学分析等多个方面。研究者在此基础上开发了预测沙眼流行趋势的贝叶斯层次模型,并利用置信区间字段进行概率性推断。同时,结合WHO AFRO地区的其他流行病学与社会经济指标,催生了探讨贫困、卫生设施与沙眼传播动态之间复杂交互关系的回归分析工作。此外,该数据也常作为基准特征,集成于更广泛的“健康指标机器学习”框架中,推动从非洲区域性数据中学习可迁移的公共卫生预警知识。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务