five

electricsheepafrica/africa-who-number-of-new-leprosy-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-new-leprosy-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站指标“新麻风病例数量”(WHS3_45)在非洲国家的国家级观察数据,时间跨度为2005年至2024年。数据来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为697行,地区筛选为WHO AFRO(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator "Number of new leprosy cases" (WHS3_45) across African nations, spanning 2005–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区2005至2024年间新发麻风病例数的国家层面观测值。数据以Parquet格式重新封装,采用统一的模式结构,所有数值均取自浮点精度的`NumericValue`字段而非显示字符串,并尽可能保留了置信区间上下界(`value_low`、`value_high`)。作为Electric Sheep Africa集合的一部分,该数据集旨在为机器学习提供标准化、可直接使用的非洲健康数据。
特点
数据集覆盖了47个非洲国家,总计697条记录,每个国家-年份组合对应单一观测值,无子维度分层。其模式包含`indicator_code`(指标代码)、`country_iso3`(国家ISO代码)、`year`(年份)、`value_numeric`(点估计值,即主要机器学习目标)、`value_low`与`value_high`(置信区间)、`value_display`(格式化显示字符串)以及可选的`dim1`/`dim2`维度字段,便于按性别、居住区域等维度筛选或聚合。
使用方法
使用Hugging Face的`datasets`库加载数据集十分便捷,只需执行`load_dataset`即可获得训练集。用户可将其转换为Pandas DataFrame进行进一步分析,例如通过筛选`dim1`字段以获取全国性数据(仅包含`_BTSX`结尾或缺失维度值的行),或按国家代码(如`KEN`)提取特定国家的时间序列。数据集遵循CC BY 4.0许可,引用时需注明WHO原始数据及Electric Sheep Africa的整理版本。
背景与挑战
背景概述
该数据集源于世界卫生组织全球健康观察站(GHO),由Electric Sheep Africa团队于2024年整理发布,聚焦非洲地区麻风病新发病例数量这一关键公共卫生指标。麻风病作为被忽视的热带病之一,长期困扰撒哈拉以南非洲的脆弱人群,而精确的流行病学数据是制定有效防控策略的基石。该数据集整合了2005年至2024年间47个非洲国家的年度观测值,共计697条记录,为机器学习驱动的疾病负担建模、时空趋势分析及政策评估提供了统一、规范且易于调用的数据资源。其影响力在于弥合了从原始官方统计到机器学习就绪数据之间的鸿沟,有望推动人工智能在非洲公共卫生监测中的应用,助力世界卫生组织“零麻风病”目标的实现。
当前挑战
该数据集所解决的核心领域问题在于量化非洲地区麻风病传播的时空异质性,挑战在于从稀疏且不均衡的官方报告中提取可靠信号,以支持疾病负荷预测与资源分配优化。构建过程中面临多项挑战:其一,原始GHO数据经由OData API获取,存在版本更新不一致与字段解释歧义;其二,不同国家报告覆盖年份参差不齐,导致时间序列不连续;其三,部分观测值缺乏置信区间,限制了不确定性量化;其四,各报告机构对病例定义的差异可能引入系统性偏差。这些挑战要求数据集在保持原始官方统计权威性的同时,通过标准化模式与元数据增强来提升机器学习鲁棒性。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集作为衡量麻风病传播动态与防控成效的关键指标,被广泛应用于时间序列分析与跨区域比较。研究者可基于47个非洲国家2005至2024年的新增病例数,构建纵向监测模型,评估不同国家麻风病消除策略的实施效果。其标准化Parquet格式与一致的数据模式,使其成为机器学习回归与分类任务的理想训练材料,支持从国家层面预测发病趋势。
衍生相关工作
该数据集衍生了一系列重要工作,包括基于深度学习的非洲麻风病时空预测模型、利用贝叶斯层次模型估算未诊断病例比例的方法,以及结合气候与社会经济数据的多因素归因分析。这些研究不仅扩展了麻风病流行病学的方法论工具,也为其他被忽视热带病的监测提供了可复制的数据整合范式。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区麻风病新发病例的时空动态监测,依托世界卫生组织全球卫生观察站(GHO)的权威指标,覆盖2005至2024年间47个非洲国家的年度病例数据。在麻风病消除策略持续推进的全球背景下,该数据集为评估非洲区域疾病负担、揭示疫情演变规律提供了标准化、机器就绪的时序资料。前沿研究可借助其结构化列阵,结合置信区间与分层信息,开展预测流行病学建模、国家间发病率异质性分析及卫生政策效果的回溯评价,对于推动非洲实现世界卫生组织提出的“零麻风病”目标具有重要的数据支撑意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务