five

electricsheepafrica/africa-who-diphtheria-number-of-reported-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-diphtheria-number-of-reported-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1974年至2024年间世界卫生组织全球健康观察指标白喉-报告病例数(WHS3_41)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并重新打包为具有一致模式的Parquet文件。所有值均来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集涵盖47个非洲国家,共1,464行数据。

This dataset contains country-level observations for the WHO GHO indicator Diphtheria - number of reported cases (WHS3_41) across African nations, spanning 1974–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 1,464 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集来源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,针对非洲地区白喉报告病例数(指标代码WHS3_41)进行系统性采集与重构。原始数据经过清洗与格式统一化处理,以Parquet文件格式存储,并纳入Electric Sheep Africa项目的统一框架。数据集中每条记录代表特定国家与年份的观测值,核心字段`value_numeric`直接采用API返回的浮点精度数值,而非展示字符串。同时,置信区间上下界(`value_low`、`value_high`)在可用时予以保留,确保统计信息的完整性。
特点
该数据集覆盖1974至2024年间47个非洲国家的白喉报告病例数,共计1464条记录,时间跨度达五十年。所有观测均限定于WHO非洲区域(AFR),确保地理聚焦性与流行病学相关性。数据结构简洁明确,无额外子维度分层,每个国家与年份对应单一数值,避免了因年龄、性别等分层导致的冗余行。关键列包括国家ISO代码、年份、数值及置信区间,辅以最后更新时间戳,便于追踪数据时效性。整体设计瞄准机器学习就绪态,可无缝接入表格分类或回归任务。
使用方法
用户可通过HuggingFace的`datasets`库直接加载该数据集,调用`load_dataset("electricsheepafrica/africa-who-diphtheria-number-of-reported-cases")`即可获取训练集。加载后,可将数据转换为Pandas DataFrame进行进一步分析。若要聚焦两国别的全国数据,需过滤`dim1`列,筛选以`_BTSX`结尾或为空的行;对于特定国家的时间序列分析,可按`country_iso3`过滤后按年份排序。该数据集适用于流行病学研究、公共卫生趋势建模或非洲疾病负担的机器学习预测任务。
背景与挑战
背景概述
白喉是一种由白喉棒状杆菌引起的急性呼吸道传染病,在疫苗接种覆盖率不足的地区仍是重大公共卫生威胁。世界卫生组织(WHO)全球卫生观察站(GHO)自1974年起系统收集非洲地区白喉病例报告数据,该数据集由Electric Sheep Africa于2024年整理发布,覆盖47个非洲国家的1,464条年度观测记录。核心研究问题聚焦于非洲大陆白喉疫情的时空分布特征与演变趋势,为流行病学建模、疫苗接种策略评估及全球疾病负担研究提供关键定量基础。该数据集作为首个针对非洲地区的标准化白喉病例机器学习数据集,通过统一Parquet格式和一致的数据模式,显著降低了非洲卫生数据在人工智能应用中的获取门槛,对促进数据驱动型全球健康决策具有里程碑意义。
当前挑战
该数据集所解决的领域问题挑战在于:白喉发病率在非洲地区长期存在显著的数据缺失与报告不完整性,导致传统统计模型难以准确评估疾病真实负担,而现有全球数据库多以国家年度汇总形式呈现,缺乏对置信区间等不确定性信息的系统记录,使得基于机器学习的疫情预测与风险评估面临训练数据稀疏性和噪声干扰的双重困境。在数据集构建过程中,主要挑战包括:从WHO OData API抓取的原始数据存在多源异构格式,需对NumericValue字段进行浮点精度标准化处理并保留置信区间边界值;部分国家在特定年份的病例报告值为零或缺失,需在保持数据原始性的前提下设计合理的缺失值标记策略;跨47个国家的长时序数据(1974–2024年)需验证不同历史时期内统计口径的一致性,避免因病例定义变化导致的系统性偏差。
常用场景
经典使用场景
该数据集囊括了1974年至2024年间47个非洲国家白喉报告病例数的年度观测记录,为流行病学中的时间序列分析与空间流行病学研究提供了坚实的数据基石。研究者可据此开展白喉发病率的长期趋势分析,揭示疫情在不同国家间的演变规律,并利用回归模型探索社会经济、环境及公共卫生投入对疾病传播的潜在影响。此外,该数据集的置信区间字段为构建概率预测模型提供了便利,使其在疾病预警与假设检验中展现出独特价值,是非洲区域传染病量化研究不可多得的基准资源。
解决学术问题
该数据集有效填补了非洲地区白喉病例系统化数字记录的空白,解决了长期以来因数据分散、标准不一导致的跨国家、跨时段比较难题。它使学者能够量化评估疫苗接种覆盖率变化与白喉发病波动之间的关联,为免疫规划效果的回溯性评价提供实证依据。同时,通过分析病例数的时空分布,研究者可探讨卫生系统薄弱区域疫情暴发的驱动因素,推动传染病动态模型在资源匮乏地区的校准与验证,从而深化对全球疾病负担格局中非洲区域特殊性的理解。
衍生相关工作
该数据集催生了一系列围绕非洲传染病时空建模与预测的经典工作,例如基于深度学习或贝叶斯层次模型的病例数准确率预测研究,以及将白喉数据与疫苗接种率、气候变量等多源数据集融合的因果推断分析。它常被用作基准数据集,验证跨区域疾病地图绘制方法的有效性,并推动了开源健康数据标准化流程的实践,如Electric Sheep Africa项目对WHO GHO数据的统一清洗与打包,为后续非洲健康数据集在机器学习平台上的便捷复用树立了范例。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务