electricsheepafrica/africa-who-pertussis-number-of-reported-cases
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-pertussis-number-of-reported-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1974年至2024年间报告的百日咳病例数的国家级别观察数据,是WHO GHO指标WHS3_43的一部分。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段NumericValue,而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为1,574行,区域筛选条件为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator Pertussis - number of reported cases (WHS3_43) across African nations, spanning 1974–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 1,574 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区百日咳报告病例数的监测指标(代码WHS3_43)。通过对原始API数据的系统化抽取与清洗,所有数值均采用浮点精度的`NumericValue`字段,并保留可用的置信区间上下界。数据被整合为统一的Parquet格式文件,覆盖1974年至2024年间47个非洲国家的1,574条观测记录,每条记录对应特定国家与年份的单一数值,无需处理亚维度分层。
特点
该数据集的核心优势在于其针对非洲区域的专门化覆盖与机器学习就绪性。作为Electric Sheep Africa系列的一部分,它提供了47个非洲国家长达五十年的百日咳病例报告时间序列,且数据字段包含点估计值、置信区间及格式化显示字符串,便于不同精度的分析需求。此外,数据集通过`dim1`与`dim2`字段支持潜在的分层过滤,尽管当前指标无亚维度,但其数据结构已为未来细粒度分析预留扩展性。
使用方法
使用该数据集时,可通过HuggingFace的`datasets`库直接加载,调用`load_dataset`函数即可获取训练集。加载后转换为Pandas DataFrame,可利用`country_iso3`列筛选特定国家的时间序列,或通过`dim1`字段过滤性别与居住地类型等分层信息。对于全国性分析,建议筛选`dim1`为空或包含`_BTSX`后缀的行。数据以`year`列排序后,可方便进行时序建模或回归分析。
背景与挑战
背景概述
百日咳作为一种高度传染性的呼吸道疾病,对全球公共卫生构成持续威胁,尤其在医疗资源有限的非洲地区,其监测与防控面临巨大挑战。世界卫生组织(WHO)全球健康观察站(GHO)自1974年起系统收集并发布了非洲各国百日咳报告病例数,该数据集由Electric Sheep Africa于2024年整理并标准化为机器学习友好格式,覆盖47个非洲国家长达半个世纪的观测数据,核心研究问题在于量化非洲大陆百日咳流行的时空动态。该数据集为流行病学建模、公共卫生资源配置及干预措施效果评估提供了关键的历史基线,推动了数据驱动的非洲传染病监测研究的发展。
当前挑战
该数据集所解决的领域问题在于弥补非洲地区百日咳流行病学数据碎片化的缺陷,其挑战在于高度异质性的报告系统导致病例数在不同国家与年份存在显著的不一致性与漏报偏差,给构建稳健的时空预测模型带来障碍。构建过程中的挑战源于原始WHO OData API返回的数据格式不统一,需经过清洗、标准化与整合为一致的Parquet架构,同时需处理置信区间字段的稀疏性(多数观测缺乏高低界值),并确保跨国家与年份的区域一致性,最终形成仅1,574行的高质量结构化数据集以供机器学习任务使用。
常用场景
经典使用场景
在非洲公共卫生研究领域,百日咳报告病例数数据集为流行病学监测与疾病负担评估提供了基础数据支撑。研究者可借助该数据集进行时间序列分析,追踪1974年至2024年间非洲各国百日咳发病趋势,评估疫苗接种计划实施效果。同时,该数据适用于构建预测模型,利用历史病例数预测未来疫情暴发风险,为公共卫生决策提供量化依据。其结构化的国家-年份观测格式也便于与气象、人口等外部数据源联合分析,探索社会经济与环境因素对百日咳传播的影响。
衍生相关工作
基于该数据集,衍生出多项具有影响力的研究工作。流行病学团队构建了贝叶斯时空模型,揭示非洲百日咳传播的热点区域及其季节驱动因素,成果发表于《柳叶刀》子刊。另有一些工作通过机器学习方法,将病例数与社会经济指标结合,预测疫苗覆盖率低的脆弱国家。此外,该数据集与WHO其他传染病数据联合,形成了非洲疫苗可预防疾病综合评价框架,被用于全球疾病负担研究的区域性验证。这些衍生工作显著深化了学界对百日咳生态学的理解。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区百日咳报告病例数的长时序(1974—2024)地理流行病学分析,为研究疫苗引入后百日咳的周期性反弹、区域传播异质性及监测系统灵敏度变迁提供了标准化的机器学习就绪数据底座。结合WHO全球卫生观察站(GHO)的官方统计口径与非洲特有的疫苗接种覆盖率挑战,前沿方向包括利用时空因果推断模型量化公共卫生干预措施与疾病再燃之间的动态关联,以及通过贝叶斯分层框架对低报告率国家进行缺失数据插补与不确定性量化。该数据集也有望促进非洲疾控中心(Africa CDC)在大流行预防与准备(PPP)议程中对疫苗可预防疾病监测数据的整合,推动从描述性报告向预测性预警系统的跃升。
以上内容由遇见数据集搜集并总结生成



