electricsheepafrica/africa-who-neonatal-tetanus-number-of-reported-cases
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-neonatal-tetanus-number-of-reported-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“新生儿破伤风 - 报告病例数”(WHS3_56)在非洲国家的国家级观察数据,时间跨度为1974年至2024年。这是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站的OData API,并重新打包为具有一致架构的Parquet文件。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Neonatal tetanus - number of reported cases" (`WHS3_56`) across African nations, spanning 1974–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球健康观察站(WHO GHO)的OData API,聚焦于非洲地区新生儿破伤风报告病例数这一关键健康指标(编码WHS3_56)。数据经过系统性整合与重加工,以Parquet格式存储,并采用统一的模式结构,确保机器学习就绪。所有观测值均提取自浮点精度字段NumericValue,同时保留了置信区间上下限(value_low、value_high),为统计推断提供支撑。数据覆盖1974年至2024年间47个非洲国家的1790条记录,按国家、年份及可能的分层维度(如性别、居住地类型)组织,形成简洁而规范的时间序列面板数据。
特点
该数据集的核心特征在于其时间跨度的广袤与空间覆盖的全面性,跨越半个世纪并囊括几乎所有非洲国家,为区域流行病学分析提供了坚实基础。无子维度的设计使得每个国家-年份组合对应单一数值,避免了多维度带来的复杂性,便于直接用于回归或分类任务。同时,置信区间信息的存在增强了数据的统计严谨性,使得模型在训练时能够考虑不确定性。元数据字段如last_updated确保了数据的时效性和可追溯性,符合开放科学数据标准。
使用方法
数据集的使用方式便捷而灵活,推荐通过Hugging Face的datasets库加载,仅需一条命令即可将数据转换为Pandas DataFrame进行后续分析。研究者可通过筛选dim1字段的_BTSX后缀或空值来获取全国总体数据,排除性别分层带来的干扰。时间序列分析则可通过按年份排序并针对特定国家ISO3代码(如KEN)进行切片实现。对于缺失的置信区间,可直接利用value_low和value_high字段评估估计可靠性,亦可将其作为回归模型的权重或辅助特征。
背景与挑战
背景概述
新生儿破伤风作为一种致命性极强的疫苗可预防疾病,在撒哈拉以南非洲地区仍构成严峻的公共卫生威胁,世界卫生组织(WHO)将其列为全球卫生监测的核心指标之一。该数据集由WHO全球卫生观察站(GHO)于2024年发布,经Electric Sheep Africa项目重新整理与标准化,聚焦1974至2024年间47个非洲国家的年度报告病例数,共计1790条观测记录。数据集核心研究问题在于追踪非洲各国在消除新生儿破伤风方面的进展,评估疫苗接种策略的实际效果。作为整合WHO官方统计数据的机器学习就绪资源,该数据集为区域流行病学研究、时序预测建模及卫生政策影响评估提供了统一、可复用的数据基础,对推动非洲公共卫生领域的数据驱动决策具有重要影响力。
当前挑战
该数据集所解决的领域问题在于精准量化非洲地区新生儿破伤风消除进程中的关键障碍,包括病例漏报与误报导致的统计偏差、区域间公共卫生监测能力不均衡引发的数据稀疏性、以及时间序列中不完整记录对趋势分析的干扰。在构建过程中,挑战主要体现在对WHO OData API原始数据的清洗与标准化,特别是处理置信区间不完整字段、统一多年份跨度的稀疏分类维度,并确保47个国家的编码体系一致。此外,数据集命名难以自然拆分为可解释的类别标签,亦为监督学习任务的特征工程带来额外复杂性。
常用场景
经典使用场景
在公共卫生与流行病学研究中,新生儿破伤风报告病例数数据集常被用于构建时间序列预测模型与疾病负担评估。研究者可基于1974年至2024年间47个非洲国家的年度观测数据,利用经典回归或分类算法分析病例数的长期趋势与周期性波动,并探索气候、疫苗接种覆盖率等协变量对疾病传播的影响。该数据集凭借其结构化的列设计(包含点估计值与置信区间),为量化不确定性提供了可靠基础,成为区域健康指标建模与政策模拟的典型数据源。
解决学术问题
该数据集有效回应了非洲地区新生儿破伤风防控研究中长期存在的两大核心难题:一是高质量、长时序、跨国家的标准化病例数据匮乏,二是难以在统一框架下比较不同国家的疾病负担差异。通过整合世界卫生组织全球卫生观察站的官方指标,本数据消除了数据孤岛,使学者能够定量评估1990年代以来免疫规划扩大的实际效果,揭示报告病例数下降与卫生基础设施改善之间的关联。其学术价值在于为消除新生儿破伤风这一全球公共卫生目标提供了可复现的证据基础,推动了基于数据的循证决策体系构建。
衍生相关工作
该数据集的发布催生了一系列衍生研究工作,包括但不限于:将全球疾病负担模型拓展至非洲次国家级尺度,实现了对偏远地区疾病漏报率的校正估计;整合多源健康指标(如孕产妇死亡率、疫苗接种率)构建联合回归模型,揭示破伤风风险的社会决定因素;以及开发基于Parquet格式的非洲健康数据统一仓库,促进机器学习流水线中的特征工程与分布式计算。同时,该数据作为Electric Sheep Africa框架的组成部分,间接支撑了非洲区域内可比性指标体系的标准化建设与开放科学运动。
以上内容由遇见数据集搜集并总结生成



