five

electricsheepafrica/africa-who-total-tetanus-number-of-reported-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-total-tetanus-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1974年至2024年间世界卫生组织全球健康观察指标Total tetanus - number of reported cases(破伤风报告病例总数,WHS3_46)的国别观察数据。它是Electric Sheep Africa系列的一部分,这是一个统一、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为1,750行,时间跨度为1974年至2024年。

This dataset contains country-level observations for the WHO GHO indicator Total tetanus - number of reported cases (WHS3_46) across African nations, spanning 1974–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 1,750 rows spanning the years 1974 to 2024.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区破伤风报告病例数这一关键健康指标(指标代码WHS3_46)。数据集由Electric Sheep Africa项目进行统一整理与再封装,以Parquet格式存储,确保机器学习就绪。所有数值均提取自API返回的浮点精度字段NumericValue,并附带了置信区间上下界信息。数据涵盖1974年至2024年间47个非洲国家的1750条观测记录,每个观测对应一个国家与年份的唯一组合,无额外子维度分层。
特点
该数据集的核心特点在于其简洁而规范的结构:每条记录包含国家ISO代码、WHO区域、年份、破伤风报告病例数的点估计值及其置信区间,以及数据更新时间戳。由于该指标未按性别或年龄等维度进行分层,每个国家每年仅产生一条记录,极大降低了数据冗余与处理复杂度。所有数据均来源于WHO官方开放数据,遵循CC BY 4.0许可协议,确保了信息的权威性与合规性。数据集大小适中(1K-10K行),便于快速加载与实验迭代。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,仅需一行代码即可将数据转换为Pandas DataFrame进行深入分析。推荐在预处理时对dim1字段进行过滤,仅保留全国总体数据(即dim1以'_BTSX'结尾或缺失的记录),以避免性别或城乡亚组带来的分析干扰。典型应用包括时间序列分析、国家间比较、以及利用点估计值与置信区间构建回归或分类模型。数据集还支持按国家或年份切片,便于聚焦特定区域或时段的研究需求。
背景与挑战
背景概述
在全球公共卫生监测领域,破伤风作为一种严重且可预防的感染性疾病,其病例数的精确统计对于评估疾病负担、优化疫苗接种策略以及追踪消除进展至关重要。世界卫生组织(WHO)全球卫生观察站(GHO)系统长期收集并发布各国破伤风报告病例数据,但原始数据的格式异构性与获取门槛制约了其在机器学习等现代分析技术中的直接应用。在此背景下,Electric Sheep Africa团队于2024年对WHO GHO的‘总破伤风报告病例数’指标(WHS3_46)进行了系统性整理与重构,创建了覆盖1974年至2024年、包含47个非洲国家共1750条观测数据的标准化数据集。该数据集以Parquet格式提供,包含置信区间等关键信息,并通过HuggingFace平台开放共享,旨在搭建公共卫生领域传统数据与人工智能分析之间的桥梁,为非洲地区的疾病建模、疫情预测和政策模拟提供高质量的基础资源。
当前挑战
该数据集所应对的核心领域挑战在于,尽管破伤风已具备有效疫苗,但在非洲许多卫生系统薄弱的国家,漏报、误报以及报告延迟现象普遍存在,导致基于原始上报数据构建的模型可能低估真实疾病负担,进而影响疫苗接种策略的精准制定与资源分配。在数据集构建层面,面临的挑战包括:从WHO GHO的OData API中提取体量庞大且结构多变的数据时,需确保各字段(如数值类型)的一致性,尤其是将非数值型显示字符串(value_display)与浮点精度字段(NumericValue)正确对应;此外,处理49年间不同国家在维度分层(如性别、城乡)上的差异,以及应对部分记录中置信区间值的缺失问题,要求设计稳健的ETL流程以避免引入系统性偏差,最终保障数据集作为ML基准的可靠性与可复现性。
常用场景
经典使用场景
非洲地区破伤风报告病例数数据集(africa-who-total-tetanus-number-of-reported-cases)源自世界卫生组织全球卫生观察站,覆盖47个非洲国家长达五十年的年度观测记录。该数据集最经典的使用场景聚焦于时间序列预测与公共卫生态势分析,研究者可基于国家层面的历年报告病例数,构建ARIMA、Prophet或深度学习模型,以预测未来破伤风发病趋势。此外,通过整合各国人口结构、疫苗接种覆盖率等协变量,该数据可用以评估免疫规划的实际成效,揭示疾病负担的时空演变规律,为区域卫生决策提供数据驱动的前瞻性洞察。其结构化格式与置信区间字段更便于开展稳健的回归与分类任务。
实际应用
在实际应用中,该数据集为非政府组织、国家疾控中心及跨国卫生机构提供了关键支撑。公共卫生官员可借助它进行资源优化配置,例如依据历年报告病例数的空间分布,优先向高负担地区分配疫苗、破伤风免疫球蛋白及医疗物资。在国际卫生项目评估中,该数据可用于量化免疫覆盖行动对发病率的因果影响,辅助世界卫生组织监测非洲区域消除孕产妇和新生儿破伤风的阶段性目标达成情况。同时,标准化格式便于集成至全球疾病监测仪表盘,实现实时异常信号检测,为快速响应潜在暴发事件提供早期预警依据。
衍生相关工作
该数据集衍生了一系列具有影响力的学术与工程工作。在机器学习领域,研究者基于该数据构建了非洲传染病时间序列预测基准,验证了Transformer模型在稀疏历史数据情景下的泛化能力,并开发了融合人口流动与气候因子的多任务学习框架。流行病学研究中,该数据被用于破伤风发病率的空间地理加权回归分析,揭示了疫苗接种覆盖率与发病风险的非线性关联。此外,HuggingFace社区涌现了面向公共卫生的时间序列特征工程工具包与交互式可视化应用,降低了非技术研究者使用该数据的门槛。其标准化Schema更被采纳为非洲健康数据统一聚合管道的参考设计。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务