electricsheepafrica/africa-who-leprosy-new-leprosy-cases-with-g2d-rate-per-1-000-000
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-leprosy-new-leprosy-cases-with-g2d-rate-per-1-000-000
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含WHO GHO指标“麻风病 - 每100万人口中新麻风病例的G2D率”(NTD_LEPR7)在非洲国家的国家级观察数据,时间跨度为2012年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator "Leprosy - New leprosy cases with G2D rate per 1 000 000 population" (NTD_LEPR7) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲地区麻风病新增病例的G2D发病率(每百万人口),涵盖2012年至2024年间的47个非洲国家,共计444条观测记录。数据以Parquet格式存储,采用统一化架构,所有数值均提取自高精度的浮点型字段(NumericValue),而非显示字符串。对于存在置信区间的指标,一并收录了下限与上限值。该数据集是Electric Sheep Africa项目的一部分,旨在为机器学习应用提供标准化的非洲健康数据资源。
特点
该数据集以国家-年份为基本观测单元,每条记录包含指示代码、国家ISO代码、WHO区域、年份、数值估计、置信区间边界、显示字符串及维度信息等字段。由于该指标未经性别或年龄分层,每个国家每年仅对应唯一数值,结构简洁,易于直接用于时序分析或回归建模。数据覆盖了WHO AFRO区域的绝大多数国家,时间跨度为13年,为研究非洲麻风病流行趋势及其地域差异提供了宝贵的统计基础。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,并转换至Pandas DataFrame进行分析。针对国家层级的分析,建议筛选dim1字段末尾为_BTSX或缺失的行,以获取两性合并的全人群数据。例如,通过条件过滤可提取诸如肯尼亚等特定国家的年份序列数据,进而开展趋势可视化或构建预测模型。该数据集同时适用于分类与回归任务,是研究非洲热带病负担的理想数据源。
背景与挑战
背景概述
麻风病作为一种被忽视的热带病,在全球范围内尤其在非洲地区仍构成重大公共卫生挑战。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新打包为机器学习就绪格式,涵盖2012至2024年间47个非洲国家的麻风病新发病例与2级残疾(G2D)率数据。核心研究问题聚焦于追踪非洲地区麻风病传播态势及残疾负担变化,为疾病监测、干预策略优化和资源分配提供量化依据。该数据集通过标准化架构整合WHO官方API数据,显著降低了非洲健康数据分析的预处理门槛,对推动机器学习在热带流行病学中的应用具有重要价值。
当前挑战
该数据集所解决的领域问题包括:麻风病早期诊断率低导致G2D残疾数据滞后,以及非洲各国卫生信息系统碎片化造成病例登记不完整。其挑战具体体现为:数据集仅包含单一国家-年份层面的汇总指标,缺乏年龄、性别等关键亚组分层信息,限制了流行病学精细分析能力;由于WHO数据公布周期与各国报告延迟,2012-2024年跨度内存在时间序列中断风险;此外,G2D率作为稀有病事件指标,在较小国家中可能出现零值或极端波动,为回归建模引入数据稀疏性与异常值处理难题。
常用场景
经典使用场景
该数据集记录了2012至2024年间47个非洲国家麻风病新发病例的G2D率(每百万人口新发病例中二级残疾的比例),是分析非洲麻风病流行病学趋势的核心资源。研究者常利用其时间序列特性,构建回归模型或分类任务,预测麻风病传播动态与残疾负担。数据集的简洁结构(单值每国家/年)使其适用于传统统计分析和机器学习基线实验,尤其适合探索疾病负担与社会经济、卫生系统覆盖率等外部变量的关联。
实际应用
在实际公共卫生行动中,该数据集为非洲国家麻风病控制规划提供了决策支持。例如,通过识别G2D率持续高企的国家和年份,可指导资源优先分配至早期诊断和残疾预防项目。世界卫生组织及其合作伙伴可将其嵌入监测仪表盘,实时追踪区域进展;非政府组织则利用其评估社区宣传和教育活动的成效,降低病例发现延迟,从而减少永久性残疾的发生。
衍生相关工作
基于此数据集,衍生工作包括将G2D率与WHO非洲区域其他健康指标(如麻风病治疗覆盖率、贫困率)融合的多变量分析,以及利用置信区间数据进行不确定性量化的稳健建模。此外,该数据集作为Electric Sheep Africa统一语料库的一部分,已被集成到面向非洲健康数据的机器学习工作流中,催生了基于时空图网络预测疾病热点区域的研究,以及对麻风病与其他被忽视热带病共病模式的联合分析框架。
以上内容由遇见数据集搜集并总结生成



