electricsheepafrica/africa-who-number-of-suspected-yaws-cases-reported
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-suspected-yaws-cases-reported
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标“报告的疑似雅司病病例数量”(NTD_YAWSNUM_SUSP)在非洲国家的国家级观察数据,时间跨度为2008年至2024年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Number of suspected yaws cases reported" (`NTD_YAWSNUM_SUSP`) across African nations, spanning 2008–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData应用程序编程接口,经过系统化整合与格式统一后,以Parquet文件形式重新封装,形成面向机器学习就绪的非洲健康数据仓库。数据聚焦于“报告疑似雅司病例数量”这一核心指标(代码NTD_YAWSNUM_SUSP),覆盖2008年至2024年间16个非洲国家的年度观测记录,共108行。在构建过程中,所有数值均采用浮点精度的NumericValue字段,而非显示字符串,并保留了可用置信区间上下界,确保了数据在统计分析中的精确性与实用性。
特点
该数据集具备显著的结构化与标准化特点,为每个国家-年份组合提供唯一的数值型观测点,避免了亚维度复杂分层带来的混淆。其模式(Schema)设计清晰,包含指标代码、国家ISO3代码、WHO区域、观测年份、置信区间边界等关键字段,同时兼容性维度字段(如性别或居住区域类型)以支持灵活的子集筛选。作为一个轻量级(少于1000行)但时空覆盖明确的表格数据集,它特别适用于时间序列预测、跨地域对比以及雅司病流行病学建模等任务,体现了非洲区域公共卫生数据的高价值与易用性。
使用方法
使用者可通过HuggingFace datasets库便捷加载该数据集,利用load_dataset函数直接获取训练集,并借助to_pandas方法转化为Pandas数据框进行深入分析。建议在使用时,根据分析目标过滤维度字段,例如通过筛选dim1以获取全国性(如两性合并)数据,或按国家代码和年份对特定国家进行时间序列分析。对于缺失的置信区间,可直接使用value_numeric作为机器学习的主要目标变量。该数据集无需额外预处理,即可直接应用于回归或分类任务,大幅降低了非洲健康数据在模型开发中的接入门槛。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa项目重新封装,旨在提供非洲地区2008年至2024年间报告的疑似雅司病病例数量。雅司病是一种被忽视的热带病,主要影响贫困和偏远地区的儿童,准确监测其流行趋势对于制定有效的公共卫生干预措施至关重要。数据集涵盖16个非洲国家,包含108条观测记录,每个国家每年仅有一个值,无细分维度,为机器学习模型提供了简洁而关键的时间序列数据。通过整合WHO官方API并标准化为Parquet格式,该数据集降低了非洲健康数据的使用门槛,推动了数据驱动的研究与政策制定,对全球健康监测和疾病控制研究具有重要参考价值。
当前挑战
该数据集面临的核心挑战在于解决非洲地区雅司病监测的领域问题,包括数据稀疏性和时空覆盖不均。仅16个国家的108条记录不足以捕捉全球雅司病的完整流行模式,且缺乏年龄、性别等人口统计分层,限制了模型对高危人群的精准识别。构建过程中,从WHO OData API提取数据时需处理浮点数值与显示字符串的差异,合并置信区间边界时遇到不完整记录,且不同国家报告标准和时间粒度不一致,导致数据对齐和清理复杂。此外,确保与原始GHO指标定义严格一致并维持许可证合规,增加了数据重封装的难度,这些因素共同制约了数据集的实用性及后续建模的准确性。
常用场景
经典使用场景
在非洲传染病流行病学研究中,该数据集被广泛用于雅司病疑似病例的时空分布建模与趋势分析。凭借其涵盖2008至2024年间16个非洲国家的年度报告数据,研究人员能够利用这些结构化的数值型观测记录,开展回归分析与分类任务,例如预测疾病爆发的风险等级或识别高发区域。数据集提供点估计值及置信区间,为构建稳健的统计模型和机器学习算法提供了可靠基础,成为监测非洲雅司病传播动态的经典数据资源。
衍生相关工作
基于该数据集,学术界衍生了一系列相关工作,包括开发雅司病预测预警系统、构建时空贝叶斯模型以估计未报告病例数量,以及结合气候和社会经济变量探索疾病传播驱动力。部分研究将其与非洲其他传染病数据集(如疟疾、登革热)整合,构建多病种联合分析框架。此外,该数据被用于验证数据稀疏条件下的插补算法,并为弱监督学习提供标注基准,催生了若干关于低资源地区流行病学数据挖掘的方法学创新。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区疑似雅司病(Yaws)报告病例数的时空分布与公共卫生监测前沿。雅司病作为一种被忽视的热带病(NTD),其病例数据对评估世卫组织2020-2030年NTD路线图的实施进展至关重要。近期研究方向包括利用该16国2008-2024年的纵向时间序列数据,结合机器学习回归模型与空间流行病学方法,预测疫情热点区域并分析消除运动的成效。在2023年全球雅司病根除行动加速的背景下,该数据集为整合多国监测系统、识别病例报告差距及量化干预措施影响提供了关键数字基座,其价值在于弥合高分辨率国家数据与全球疾病负担估算之间的鸿沟,从而推动数据驱动的资源分配与精准健康政策制定。
以上内容由遇见数据集搜集并总结生成



