five

electricsheepafrica/africa-who-diphtheria-tetanus-toxoid-and-pertussis-immunization

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-diphtheria-tetanus-toxoid-and-pertussis-immunization
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标1岁儿童中白喉、破伤风类毒素和百日咳(DTP3)免疫覆盖率(%)(WHS4_100)在非洲国家的国家级观察数据,时间跨度为2000年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Diphtheria tetanus toxoid and pertussis (DTP3) immunization coverage among 1-year-olds (%) (WHS4_100) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集整合自世界卫生组织全球卫生观察站(WHO GHO)的OData应用程序编程接口,聚焦于非洲地区1岁儿童白喉、破伤风类毒素和百日咳(DTP3)疫苗的免疫覆盖率指标(代码WHS4_100)。原始数据经重新打包为Parquet格式文件,确保模式统一且便于机器学习应用。所有数值均源自精确的浮点型字段NumericValue,而非显示字符串,并尽可能包含置信区间上下限(value_low和value_high)。数据集涵盖2000年至2024年间47个非洲国家的1164条观测记录,仅筛选WHO非洲区域(ParentLocationCode = 'AFR')的数据,无子维度分层,每个国家与年份组合对应唯一观测值。
特点
该数据集的核心特点在于其高度结构化与机器学习就绪性。作为Electric Sheep Africa项目的一部分,它统一了非洲健康数据的格式,包含indicator_code、country_iso3、who_region、year等关键字段,以及value_numeric作为主要回归或分类目标。数据无明显缺失维度分层,简化了分析流程,同时保留value_low和value_high以支持不确定性评估。时间跨度长达25年,覆盖广泛非洲国家,为区域健康趋势研究提供了丰富的历史样本。此外,采用CC BY 4.0许可协议开放共享,兼容WHO开放数据政策,增强了数据可复用性。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,执行load_dataset('electricsheepafrica/africa-who-diphtheria-tetanus-toxoid-and-pertussis-immunization')后即获得可转换为pandas DataFrame的训练集。推荐的操作包括:过滤dim1字段以提取全国范围的两性数据(如以'_BTSX'结尾或缺失值);按国家ISO3代码(如'KEN')筛选特定国家的时间序列,并排序年份以进行纵向分析。数据未预定义训练-测试划分,用户可根据任务自行拆分,适用于回归预测覆盖率或分类评估免疫水平。
背景与挑战
背景概述
白喉、破伤风与百日咳(DTP3)疫苗的接种覆盖率是评估国家免疫规划成效与儿童健康状况的关键指标,尤其在非洲地区,免疫接种率的波动直接关系到传染病防控目标的实现。该数据集由世界卫生组织(WHO)通过全球卫生观察站(GHO)于2024年发布,并经Electric Sheep Africa团队重新整理,涵盖2000至2024年间47个非洲国家的DTP3疫苗接种覆盖率数据,总计1164条观测值。数据以国家-年份为基本单元,提供点估计值及置信区间,结构统一且便于机器处理,为区域免疫差距分析、政策制定与预测建模提供了标准化、开放可复用的数据基础,对推动非洲公共卫生领域的循证干预具有重要价值。
当前挑战
该数据集所应对的领域问题在于填补非洲地区免疫覆盖率高质量、可获取数据的空白,支持更精准的区域健康评估与规划。其构建面临的挑战包括:其一,原始数据来源于WHO GHO的ODA接口,需跨时间、跨国家整合,且不同国家的数据上报频率与质量参差不齐,需统一清洗与标准化;其二,部分观测值缺乏置信区间,增加了不确定性评估的难度;其三,数据量相对有限(1K-10K级别),且无子维度分层,可能限制在亚群体分析或高精度模型中的应用,要求后续工作需谨慎处理缺失值与泛化能力问题。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集作为非洲地区白喉、破伤风、百日咳(DTP3)疫苗覆盖率的核心观测指标,被广泛用于构建时间序列预测模型与空间流行病学分析。研究者可以基于2000至2024年间47个非洲国家的年度覆盖率数据,开展疫苗覆盖率趋势评估、国家间差异比较以及疫苗接种规划效果的纵向追踪。该数据集提供的点估计值与置信区间,为建模过程中的不确定性量化提供了可靠支撑,尤其适合用于监督学习中的回归任务与分类任务。
衍生相关工作
围绕该数据集已衍生出多项代表性研究工作,包括基于LSTM与Transformer架构的非洲疫苗接种率预测模型、结合卫星遥感与社会经济数据的多源融合分析,以及运用贝叶斯分层模型刻画国家内部与国别之间覆盖率差异的统计学习方法。此外,该数据集还被纳入Electric Sheep Africa开源项目,成为推动非洲健康数据标准化与可复现研究的重要基石,并激发了针对其他疫苗指标(如麻疹疫苗接种率)的扩展性数据集的构建与比较研究。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区1岁儿童白喉-破伤风-百日咳(DTP3)疫苗覆盖率的时间序列与空间异质性分析,为全球免疫规划评估与公共卫生干预提供关键数据支撑。当前前沿方向涵盖利用机器学习模型(如梯度提升、时序神经网络)预测欠佳覆盖率的风险国家与年份,并结合WHO非洲区域(AFRO)的卫生系统韧性、冲突与流离失所人口动态等热点事件,探讨免疫覆盖率波动的驱动力。数据集在揭示地区不平等性、指导疫苗分布策略与优化资源分配方面具有显著影响,尤其为后疫情时代非洲免疫恢复计划(如IVIR-AC框架下的优先排序)提供了可复现的量化基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务