electricsheepafrica/africa-who-zoonotic-diseases
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-zoonotic-diseases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2021年至2023年间的人畜共患疾病(WHO GHO指标IHRSPAR2_C12)的国家级观察数据。数据来源于世界卫生组织全球健康观察站(WHO GHO)的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段NumericValue,而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为141行,地区筛选为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator Zoonotic diseases (`IHRSPAR2_C12`) across African nations, spanning 2021–2023. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 141 rows, filtered by WHO AFRO region (`ParentLocationCode = AFR`).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的公开数据,聚焦于非洲地区人畜共患疾病指标(IHRSPAR2_C12)。数据通过OData API直接获取,经Electric Sheep Africa项目重新整理,以Parquet格式统一存储,保留原始NumericValue字段的浮点精度值,并包含置信区间上下界。数据集覆盖2021至2023年间47个非洲国家的年度观测,共计141条记录,所有条目均限定于WHO非洲区域(AFR)。
特点
数据集以表格形式呈现,每行代表一个国家在特定年份的单一观测值,无分层维度干扰,结构简洁。其核心字段包括指标代码、国家ISO3代码、WHO区域、年份、数值点估计及置信区间,同时保留显示字符串与更新时间戳。数据无缺失值且格式一致,直接面向机器学习任务设计,既支持分类也可用于回归分析,适合快速构建跨国的疾病负担预测模型。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,调用load_dataset函数即可获取训练集并转换为Pandas DataFrame。对于全国性两性数据,可基于dim1字段筛选以'BTSX'结尾的值或缺失值。针对特定国家的时间序列分析,可按country_iso3字段过滤并依年份排序,例如提取肯尼亚的连续观测结果,从而支持后续的统计建模与可视化工作。
背景与挑战
背景概述
人畜共患病(Zoonotic diseases)作为全球公共卫生安全的重要威胁,在非洲大陆尤为突出,其传播与生态、农业及社会经济因素紧密交织。世界卫生组织(WHO)全球卫生观察站(GHO)于2023年发布的人畜共患病指标数据集(IHRSPAR2_C12),由Electric Sheep Africa团队重新整理为机器学习就绪格式。该数据集覆盖2021至2023年间47个非洲国家的年度观察数据,旨在量化各国在《国际卫生条例》框架下对人畜共患病的监测与应对能力。其核心研究问题在于利用标准化、可复现的数值型数据(涵盖点估计及置信区间),为区域流行病学建模、卫生系统韧性评估与政策制定提供基础支撑。这一开源资源的问世,显著降低了非洲健康数据的访问壁垒,推动了以数据驱动的传染病研究与跨学科合作。
当前挑战
该数据集所应对的领域挑战在于:非洲大陆人畜共患病监测长期面临数据碎片化、报告标准不一及时间序列不完整等困境,这不仅阻碍了跨国传播风险的精确评估,也制约了早期预警系统的构建。在构建过程中,首要挑战是如何从WHO GHO的OData API中高效提取并清洗异构的原始数据,确保所有数值均来源于精确的浮点字段而非展示字符串。其次,面对部分观察值缺乏置信区间、维度字段(如性别、居住地类型)分布不均衡的问题,需设计一致性的模式以兼容缺失信息,同时保留维度过滤与聚合分析的可能性。此外,数据按国家-年份排列的稀疏性(仅141条记录)限制了深度学习模型的直接应用,鼓励研究者探索小样本学习与时空插值方法,以充分挖掘有限观测中的公共卫生洞见。
常用场景
经典使用场景
该数据集聚焦于非洲地区人畜共患疾病的监测指标(IHRSPAR2_C12),覆盖2021至2023年间47个非洲国家的年度观测值。在经典使用场景中,研究者可将其作为核心标签,构建基于表格数据的分类或回归模型,用于预测各国人畜共患疾病的负担水平。数据以干净、一致的Parquet格式提供,包含点估计值与置信区间,便于直接接入机器学习流水线。通过筛选性别或居住地类型等维度,还可实现亚组分析,从而细致刻画不同人群与地区的疾病风险特征。
解决学术问题
该数据集有效回应了非洲人畜共患疾病研究中长期存在的数据碎片化与标准化不足的困境。它统一整合了WHO全球卫生观察站的官方指标,为跨国比较与时间序列分析提供了可靠基础。学术上,研究者得以借此探究环境变化、农业活动与疾病爆发的关联机制,或评估国家卫生系统对动物源性传染病的监测能力。其开放获取特性也降低了低资源地区研究者的数据门槛,推动了全球健康不平等议题的实证研究。
衍生相关工作
该数据集催生了一系列衍生工作,包括与其同一数据生态下“非洲WHO GHO”系列其他指标(如医疗系统可及性、免疫覆盖率)的联合分析研究。已有学术工作利用该数据训练轻量级的时空预测模型,探讨新冠疫情期间人畜共患疾病报告率的变化。其标准化的架构也吸引了机器学习社区开发针对非洲特定健康挑战的基准测试集,进而启发更多关于低资源环境下数据增强与迁移学习的方法学探索。
以上内容由遇见数据集搜集并总结生成



