five

electricsheepafrica/africa-who-number-of-reported-deaths-from-cholera

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-reported-deaths-from-cholera
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“报告的霍乱死亡人数”(CHOLERA_0000000002)在非洲国家1970年至2016年的国家级观察数据。数据集是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO GHO OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间上下限(value_low, value_high)。数据集覆盖47个非洲国家,共993行数据,区域筛选为WHO AFRO(ParentLocationCode = AFR)。数据结构包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间上下限、显示字符串、维度类型和值等字段。

This dataset contains country-level observations for the WHO GHO indicator "Number of reported deaths from cholera" (CHOLERA_0000000002) across African nations, spanning 1970–2016. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 993 rows, filtered by WHO AFRO region (ParentLocationCode = AFR). The schema includes columns such as indicator_code, country_iso3, who_region, year, value_numeric, value_low, value_high, value_display, dim1_type, dim1, dim2_type, dim2, and last_updated.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,由Electric Sheep Africa项目进行统一化重构与封装。数据以Parquet格式存储,采用一致的模式(schema)记录非洲国家在1970年至2016年间因霍乱死亡的报告人数。所有数值均取自高精度的浮点型字段NumericValue,而非显示字符串,同时保留了可用的置信区间上下界(value_low, value_high)。数据集共包含47个非洲国家的993条观测记录,聚焦于WHO非洲区域(AFR),适用于基于表格的分类与回归任务。
特点
该数据集最显著的特点在于其高度的结构一致性与即用性。每个观测值对应一个国家、一个年份的唯一组合,无额外子维度分层,简化了多国纵向比较分析。模式中除了核心指标值外,还附带了置信区间、显示格式字符串及数据更新时间戳,便于研究者评估数据质量与时效性。此外,数据集严格遵循CC BY 4.0许可协议,确保了数据的合法公开获取与再利用,使其成为非洲流行病学建模与卫生政策研究的优质基础资源。
使用方法
使用者可通过Hugging Face的datasets库便捷加载数据,例如执行`load_dataset("electricsheepafrica/africa-who-number-of-reported-deaths-from-cholera")`,并利用`to_pandas()`方法转换为DataFrame进行后续分析。由于数据未包含子维度分层,筛选全国总体估计(两性合计)时,可对dim1字段进行条件过滤,如选取以'_BTSX'结尾或dim1为空的行。若要聚焦特定国家的时间序列,则可依据`country_iso3`字段进行筛选,并按`year`排序,方便趋势观察与建模。
背景与挑战
背景概述
霍乱作为一种急性肠道传染病,在非洲大陆造成了沉重的公共卫生负担,准确报告死亡病例是评估防控措施效果和优化资源配置的基础。世界卫生组织(WHO)全球卫生观察站(GHO)系统长期追踪非洲各国霍乱相关死亡数据,该数据集由Electric Sheep Africa团队于2020年代初期整理发布,聚焦47个非洲国家1970至2016年间报告的霍乱死亡病例数。其核心研究问题在于通过标准化、结构化的数值型时间序列数据,为流行病学建模、疾病负担估算及政策干预效果评估提供高质量基础。这一数据集弥补了非洲区域霍乱死亡率长期缺乏统一机器可读记录的空白,有力推动了该领域从定性描述向定量分析的范式转变。
当前挑战
构建该数据集面临的首要领域挑战是非洲霍乱死亡报告系统本身的严重不完整性——许多国家缺乏常规监测能力,导致大量死亡未被计入官方统计,数据缺失模式可能非随机,直接影响了机器学习模型对真实疾病负担的推断能力。构建过程中的技术挑战包括:从WHO OData API提取原始数据时需处理多种数据格式(如显示字符串与浮点数值的转换)、置信区间字段存在大量缺失值、以及47个国家间区域编码和年份范围的异质性。此外,同一国家在不同年份可能存在亚维度(如性别、城乡)的分层记录,需统一过滤策略以获取一致的全国性估计,进一步增加了数据清洗与整合的复杂性。
常用场景
经典使用场景
在公共卫生与流行病学研究中,该数据集主要用于非洲国家霍乱死亡人数的时空趋势分析与模型构建。凭借其覆盖47个非洲国家、横跨1970年至2016年的长时序观测,研究者可将其作为回归或分类任务的核心输入,用于预测霍乱死亡率的变化规律、识别高发地区与年份,并评估干预措施的效果。数据集中包含的点估计值与置信区间,为不确定性量化提供了宝贵基础,使其成为构建机器学习驱动型疾病监测模型的经典训练资源。
衍生相关工作
围绕该数据集,衍生出多项标志性学术工作,尤其是在传染病建模与机器学习交叉领域。例如,研究者利用其构建了贝叶斯时空模型以预测霍乱暴发的概率与强度,相关成果发表于《PLOS Neglected Tropical Diseases》。另有工作将其与气象数据融合,通过梯度提升算法揭示降雨异常与死亡人数激增的关联,推动了环境流行病学的方法论创新。此外,该数据集还作为基准资源,催生了针对非洲特定区域的零样本迁移学习研究,显著提升了低数据覆盖国家的疫情预警能力。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区霍乱致死病例的时空分布与预测建模,为全球公共卫生监测与传染病防控提供了关键的底层数据支撑。结合近年来非洲大陆频繁爆发的霍乱疫情与WHO加速推进的“终止霍乱”全球路线图,这一跨越近半个世纪、涵盖47个国家的结构化数据,正被前沿研究者用于构建机器学习驱动的早期预警系统,识别高发区域与季节性模式,并量化气候变迁与水资源匮乏对疫情扩散的深层影响,从而助推精准干预策略的制定与区域卫生应急能力的提升。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务