five

electricsheepafrica/africa-who-new-leprosy-case-detection-rate-per-1-000-000-population

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-new-leprosy-case-detection-rate-per-1-000-000-population
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“每100万人口中新麻风病例检测率”(NTD_LEPR2)在非洲国家的国家级观察数据,时间跨度为2012年至2024年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为469行,地区筛选条件为WHO AFRO(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator "New leprosy case detection rate per 1 000 000 population" (NTD_LEPR2) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 469 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,系统性地收集了非洲47个国家在2012至2024年间关于麻风病新发病例检出率(每百万人)的年度观测数据。原始数据经由Electric Sheep Africa团队进行统一清洗与重构,以Parquet格式封装,并严格采用'NumericValue'字段中的浮点精度数值作为主要数据源,同时保留置信区间上下界等辅助信息。数据仅聚焦WHO非洲区域(AFRO),不含任何子维度分层,确保每个国家-年份组合对应唯一观测值,共计469条记录,形成了一份便于机器学习直接使用的紧凑型表格数据集。
特点
本数据集的核心特色在于其高度的标准化与即用性。所有字段采用统一架构,包含指示符代码、国家ISO3代码、年份、数值及置信区间等关键列,其中'value_numeric'列专为回归或分类任务设计。数据覆盖广泛,横跨十余年,囊括麻风病防控领域的关键流行病学指标,且来源权威、许可开放(CC BY 4.0),便于学术研究与模型开发。此外,作为Electric Sheep Africa系列的一部分,该数据集与其他非洲健康数据集保持一致的格式,支持无缝整合与多指标联合分析。
使用方法
使用者可通过HuggingFace的`datasets`库便捷加载数据集,调用`load_dataset`函数即可获得可直接转换为Pandas DataFrame的训练集。典型用法包括筛选出全国层面(即性别为两性)的观测值用于总体趋势分析,或按国家ISO3代码切片以研究特定国家的时间序列变化。数据集适用于监督学习中的回归任务(预测检出率)或分类任务(如划分高/低检出率区间),亦可用于探索性数据分析与时间序列建模,提供丰富的健康统计基础。
背景与挑战
背景概述
麻风病作为一种被忽视的热带疾病,长期以来在全球公共卫生领域受到持续关注。世界卫生组织(WHO)全球卫生观察站(GHO)发布的非洲地区新发麻风病例检出率数据集,由Electric Sheep Africa团队于2024年整理并公开,旨在为非洲47个国家在2012至2024年间的麻风病监测提供标准化、机器学习友好的数据资源。该数据集的核心研究问题聚焦于非洲大陆麻风病防控现状的量化评估,通过统一的数据模式与置信区间信息,为流行病学建模、政策制定及区域对比研究提供了坚实的数据基础。其影响力体现在推动欠发达地区的透明数据共享,助力实现WHO消除麻风病的目标,并促进非洲健康数据在人工智能领域的应用。
当前挑战
该数据集面临的挑战主要来自两个方面。在领域问题层面,麻风病作为被忽视的热带疾病,其早期发现与准确报告在资源匮乏的非洲地区尤为困难,数据质量受限于各国监测系统的差异与漏报现象,导致模型训练的偏差风险。在构建过程中,原始WHO数据经过API获取与重新打包,需处理不同年份间统计口径的变化、缺失置信区间等元数据不一致问题,同时469条记录的小样本量限制了复杂模型的应用,需谨慎应对过拟合与泛化能力不足的挑战。
常用场景
经典使用场景
非洲区域的新发麻风病病例检出率(每百万人)数据集,来自世界卫生组织全球卫生观察站,覆盖2012至2024年间47个非洲国家的年度观测。其经典用途在于构建时间序列预测模型,对未来的麻风病发病率进行推断,以及作为回归分析任务中的目标变量,探究社会经济、医疗卫生资源等因子与疾病传播之间的关联。此外,该数据还常用于分类任务,如根据检出率的高低将国家划分为不同风险等级,从而辅助公共卫生优先级排序。
解决学术问题
该数据集有力回应了热带传染病流行病学中的关键学术难题,即如何精准量化麻风病在非洲地域的时空演变规律。通过提供长时间跨度、多国家可比的高质量面板数据,研究者得以构建混合效应模型和空间统计模型,解析检出率随年份的变化趋势与国别差异。这克服了以往因数据稀疏、口径不一而难以开展大规模跨国比较的局限,为深入探讨疾病传播的驱动因子、评估防控策略的有效性奠定了坚实的数据基础。
衍生相关工作
基于此数据集,学术界已衍生出多项标志性研究。一方面,研究者利用该数据训练机器学习回归模型,如梯度提升树与长短期记忆网络,用于预测检出率的短期波动。另一方面,计量经济学领域的学者将其与教育水平、人均GDP等面板数据匹配,利用面板固定效应模型实证检验经济发展对传染病控制的影响。此外,空间流行病学工作通过莫兰指数等工具揭示了麻风病检出率的空间自相关性,促成对跨境传播路径的模拟与干预策略的评估。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务