five

electricsheepafrica/africa-who-poliomyelitis-number-of-reported-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-poliomyelitis-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1980年至2018年间世界卫生组织全球健康观察站(WHO GHO)指标脊髓灰质炎报告病例数(WHS3_49)的国家级观察数据。数据集由Electric Sheep Africa整理,直接从WHO GHO OData API获取数据,并以Parquet文件格式重新打包,包含数值估计、置信区间等信息。数据集覆盖47个非洲国家,共1,738行数据,每行包含国家代码、年份、数值估计、显示值等字段。

This dataset contains country-level observations for the WHO GHO indicator "Poliomyelitis - number of reported cases" (`WHS3_49`) across African nations, spanning 1980–2018. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观测站(WHO GHO),聚焦于非洲地区脊髓灰质炎报告病例数的国家层面观测值,时间跨度覆盖1980年至2018年。数据通过OData API直接采集,并经由Electric Sheep Africa项目重新封装为Parquet格式,确保Schema一致且面向机器学习场景优化。所有数值均采用高精度浮点字段`NumericValue`,避免字符串表示引入误差,同时保留了置信区间范围(`value_low`、`value_high`),以增强数据统计完整性。该数据集共包含47个非洲国家、1738条记录,所有观测均隶属于WHO AFRO区域。
特点
该数据集的核心优势在于其标准化与可复现性。它统一了WHO GHO指标`WHS3_49`的字段结构,包含国家代码、年份、数值估计及上下置信界等关键列,并提供了`dim1`/`dim2`等维度字段以记录潜在的分层信息(如性别、地区类型),便于用户按需筛选。尽管本指标无子维度细分,但Schema设计预留了处理分层数据的能力,体现了灵活性。此外,数据集以简洁的列式存储提升加载效率,并附带时间戳字段记录最后更新日期,确保数据时效性可追溯。
使用方法
使用者可通过HuggingFace Datasets库便捷加载该数据集:调用`load_dataset('electricsheepafrica/africa-who-poliomyelitis-number-of-reported-cases')`即可获取训练集,并支持直接转换为Pandas DataFrame。推荐的典型操作包括:利用`dim1`字段过滤出仅包含'双性'或缺失值的国家级数据以获得全国统计;或者按`country_iso3`列筛选特定国家(如`KEN`),并结合`year`字段排序以构建时间序列分析。数据以标准化格式存储,可直接应用于分类或回归任务,支持快速接入机器学习流水线。
背景与挑战
背景概述
脊髓灰质炎(俗称小儿麻痹症)作为一种严重危害儿童健康的急性传染病,在全球范围内长期受到公共卫生领域的高度关注。世界卫生组织(WHO)全球卫生观测站(GHO)自1980年起持续监测并系统记录了非洲地区各国脊髓灰质炎报告病例数,为评估疫苗接种策略、追踪病毒传播动态及指导区域根除行动提供了不可或缺的数据基础。由Electric Sheep Africa团队于2018年整理并发布的数据集,整合了WHO OData接口中的官方统计指标(代码WHS3_49),覆盖47个非洲国家长达39年的完整时序观测。该数据集以统一架构与Parquet格式呈现,不仅降低了跨领域研究者获取高质量健康时间序列的门槛,更为机器学习驱动的传染病预测模型、时空传播模式分析及区域健康政策评估提供了标准化的训练与验证资源,显著推动了数据密集型公共卫生研究在非洲大陆的发展。
当前挑战
该数据集所解决的领域核心挑战在于脊髓灰质炎的时空精准监测与根除进程中的不确定性管理。非洲地区因复杂的社会经济条件、动荡的安全局势、薄弱的医疗基础设施及流动人口频繁,导致病例主动发现与报告长期面临漏报、迟报及数据质量不均的困境。同时,不同国家间监测能力差异悬殊,尤其在冲突频发或偏远地区,病例零报告往往难以区分是实际消除抑或监测中断。在数据集构建过程中,挑战源自多维异构原始数据的清洗与整合:需处理WHO官方API返回的数值型、文本型及置信区间字段,精准对齐国家代码、时间维度及人群分层标签,并协调1980年至2018年间因行政区划变更、疾病定义更新及报告标准演变带来的时序一致性偏差,最终确保输入机器学习模型的数据具备可靠的可比性与可重复性。
常用场景
经典使用场景
该数据集收录了1980至2018年间非洲47个国家脊髓灰质炎病例报告数的年度观测数据,是流行病学与公共卫生领域时序分析的基础资源。研究者常利用其清洗一致的结构化格式,构建时间序列预测模型,如ARIMA、LSTM或Prophet,以揭示区域内脊髓灰质炎传播的长期趋势与季节性波动。同时,数据集提供的置信区间字段支持不确定性量化,适用于贝叶斯推断或风险区间估计任务。其轻量级且标准化的Parquet格式,便于在低算力环境下快速加载和复现经典分析流程,成为非洲传染病监测研究的标准基准之一。
实际应用
在实际应用层面,该数据集为非洲各国的公共卫生决策提供了数据驱动的基础。国家疾病控制中心可结合其他社会经济数据,利用此数据集评估疫苗接种运动的覆盖率与时效性,识别高风险区域,优化资源分配。国际卫生组织及非政府组织亦可通过分析报告病例数的时间序列,动态调整主动监测策略与跨境联合防控方案。其公开许可协议与标准化格式还降低了数据使用的技术门槛,赋能本地化数据科学家开发疫情预警仪表盘,助力实现全球根除脊髓灰质炎的目标。
衍生相关工作
该数据集已被纳入Electric Sheep Africa统一数据仓库,由此衍生出多项与非洲健康指标相关的经典工作。研究人员利用此指标与同一系列中的其他GHO数据(如免疫覆盖率、卫生设施可及性等)构建多变量面板分析,揭示环境与政策变量对脊灰病例数的影响机制。部分工作聚焦于数据补全技术,例如利用时空矩阵分解填补稀疏国家的缺失值,进而复现更完整的非洲脊灰传播图谱。另有工作将其作为下游分类任务的标签源,尝试利用卫星影像或移动信令数据预测疫情热点区域,拓展了遥感与公共卫生的交叉研究边界。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务