five

electricsheepafrica/africa-who-number-of-suspected-cases-of-buruli-ulcer-reported

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-suspected-cases-of-buruli-ulcer-reported
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO全球卫生观测站指标报告的布鲁里溃疡疑似病例数(NTD_BU_SUSP)在非洲国家的国家级观测数据,时间跨度为2002-2024年。它是Electric Sheep Africa项目的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO GHO OData API获取,并以Parquet文件格式重新打包,采用一致的架构。所有数值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下包含置信区间边界(value_low, value_high)。数据集覆盖17个非洲国家,共237行数据,仅限于WHO非洲区域(AFRO)。

This dataset contains country-level observations for the WHO GHO indicator "Number of suspected cases of Buruli ulcer reported" (`NTD_BU_SUSP`) across African nations, spanning 2002–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 17 African nations with 237 total rows, filtered to WHO AFRO region.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区布鲁里溃疡疑似病例报告数量(指标代码NTD_BU_SUSP),覆盖2002至2024年间17个非洲国家的237条观测记录。数据以Parquet格式重新封装,采用统一模式,所有数值来自浮点精度的NumericValue字段,并附有置信区间上下界,确保机器学习任务的直接可用性。Electric Sheep Africa项目从WHO原始开放数据中提取并标准化,构建了一个整洁、可复用的非洲健康数据存储库。
特点
数据集的主要特点在于其聚焦单一指标、跨时跨国的纵向结构,无额外子维度,每个国家-年份组合对应唯一数值,简化了时间序列分析与回归建模。所有记录均经过WHO AFRO区域过滤,聚焦布鲁里溃疡流行国,涵盖17个国家(如尼日利亚、加纳、乌干达等),数据量精炼(n<1K)但时间跨度长(22年),适合中小规模监督学习任务。
使用方法
使用HuggingFace datasets库即可便捷加载,通过load_dataset函数直接获取,并转换为pandas DataFrame进行进一步分析。推荐过滤dim1字段以聚焦全国总数(如选取SEX_BTSX),或直接对country_iso3列进行国家子集筛选。该数据集适用于布鲁里溃疡监测的时间序列预测、区域负担比较及健康政策评估等任务,也可作为非洲健康数据集的基准测试集。
背景与挑战
背景概述
布鲁里溃疡是一种被忽视的热带病,由溃疡分枝杆菌引起,可导致皮肤及软组织严重毁损,在非洲多国呈地方性流行。世界卫生组织全球卫生观察站自2002年起系统收集各成员国报告的布鲁里溃疡疑似病例数据,以监测疾病负担与防控进展。2024年,Electric Sheep Africa团队将这一权威数据重新整理并发布至HuggingFace平台,覆盖2002至2024年间17个非洲国家的237条国家-年份观测记录。该数据集的核心研究问题在于提供统一、机器可读的标准化表格数据,支持布鲁里溃疡流行病学的时间序列分析与区域对比。作为非洲健康数据开放运动的重要组成部分,该数据集极大降低了研究者获取及处理WHO原始API数据的门槛,对推动利用数据驱动方法改善非洲被忽视热带病监测体系具有深远影响。
当前挑战
该数据集所解决的领域问题是被忽视热带病布鲁里溃疡的流行病学监测与量化分析。在无此统一数据资源时,研究者需逐一爬取WHO API不同端口的非结构化数据,面临字段命名不一致、缺失置信区间、与机器学习框架不兼容等障碍。构建过程中遇到的挑战包括:原始OData接口数据以字符串形式呈现数值,需精准解析浮点数与置信区间边界;不同年份各国可能采用不同性别、城乡分层维度,合并成单一宽表时需谨慎处理多重子维度的数据对齐与缺失值填充;此外,仅17国具备完整时间序列,部分国家年份数据稀疏,给建模与推断带来了小样本偏倚风险。这些挑战提示,尽管数据已被预处理为分析就绪格式,但使用时仍需注意缺失机制与结构化噪声对模型泛化能力的潜在影响。
常用场景
经典使用场景
该数据集聚焦于非洲地区布鲁里溃疡疑似病例的年度国家层面统计数据,时间跨度从2002年至2024年,覆盖17个非洲国家。其经典使用场景包括作为时间序列分析的基础数据源,用于追踪布鲁里溃疡在非洲不同国家的流行趋势与波动规律。研究者可借助该数据集构建预测模型,评估疾病传播的动态变化,或结合气候、人口等协变量探究影响病例报告数的潜在因素。此外,数据集中包含的置信区间信息为不确定性量化提供了支撑,适用于贝叶斯统计推断或风险评估框架。
解决学术问题
该数据集有效回应了非洲被忽视热带病(NTDs)领域两大核心学术难题:一是布鲁里溃疡长期缺乏系统化、机器可读的标准化记录,导致跨国比较与时空建模困难;二是现有全球健康数据库往往以聚合形式呈现,难以满足细粒度分析需求。通过提供统一架构的Parquet格式数据,该数据集使研究者能够开展基于多年份、多国家的发病率统计推断,检验公共卫生干预措施的实际效果,并为疾病负担评估提供实证基础,从而推动亚非拉地区NTDs防控策略的科学化制定。
衍生相关工作
围绕该数据集已衍生出若干重要工作方向。作为Electric Sheep Africa项目的一部分,它与同一收集体系内其他非洲健康指标数据集形成互补,支撑跨疾病联合分析。研究者可将其与气候、土地利用等环境数据集整合,构建布鲁里溃疡传播的生态流行病学模型。此外,数据集中缺失值的分布特征与置信区间结构,激发了关于小样本国家疾病估算方法的改进研究,例如采用层次贝叶斯模型或迁移学习技术。这些衍工作不仅深化了对NTDs流行规律的理解,也为数据稀缺情景下的公共卫生建模提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务