electricsheepafrica/africa-who-new-leprosy-child-case-detection-rate-per-1-000-000-child
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-new-leprosy-child-case-detection-rate-per-1-000-000-child
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“15岁以下儿童麻风病新病例检测率(每100万儿童人口)”在非洲国家的国家级观察数据,时间跨度为2012年至2024年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集涵盖47个非洲国家,总行数为455行,地区筛选条件为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator "New leprosy child case detection rate (less than 15 years of age) per 1 000 000 child population" (`NTD_LEPR13`) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 47 African nations with a total of 455 rows, filtered by WHO AFRO region (`ParentLocationCode = AFR`).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa团队系统性采集、清洗与重构,形成面向机器学习就绪的统一数据集。构建过程中,所有数值均提取自原始的浮点精度字段NumericValue,而非格式化显示字符串,并完整保留了置信区间上下界(value_low与value_high)可用值。数据以Parquet格式存储,具备一致的列式结构,涵盖47个非洲国家在2012至2024年间共计455条观测记录,通过区域编码ParentLocationCode限定为非洲区域(AFR)。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,使用load_dataset函数一步获取Parquet格式的数据,并转换为Pandas DataFrame进行后续分析。使用时建议依据dim1字段筛选出两性综合观测(以_BTSX结尾或为空),以获取国家层面无分层的整体检出率。例如,过滤出Kenia国家并按时序排序,即可构建具体国家的时间序列模型。数据集可直接服务于分类或回归任务,因其列式结构清晰,易于将value_numeric作为目标变量,配合country_iso3与year构建特征向量。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2024年创建,并经HuggingFace平台上的Electric Sheep Africa项目重新整理封装,聚焦于非洲地区15岁以下儿童新发麻风病检出率(每百万儿童人口)。麻风病作为一种被忽视的热带病,长期困扰非洲公共卫生体系,而儿童发病率的高低直接反映疾病传播的最新动态与防控成效。该数据集覆盖2012至2024年间47个非洲国家的455条观测记录,以标准化、机器学习友好的Parquet格式提供,旨在为流行病学建模、政策评估及区域健康不平等研究提供坚实的数据基础。作为非洲专项健康数据收藏的一部分,它填补了高质量、可复现的儿童麻风病监测数据缺口,对推动WHO“终结被忽视热带病”全球战略在非洲的落地具有重要支撑作用。
当前挑战
该数据集所应对的核心领域挑战在于儿童麻风病检出率数据的稀疏性与不可比性——非洲多国医疗报告系统不完善,导致传统统计难以捕捉真实传播态势,而此数据集通过统一WHO指标代码与置信区间字段,初步解决了跨时空比较的难题。构建过程中主要遭遇三重挑战:其一,原始OData API数据需经复杂清洗以提取隐藏的数值精度字段(NumericValue),避免显示字符串中的格式噪声;其二,不同国家上报的年龄分组与性别分层可能不一致,数据集需通过dim1/dim2字段保留原始维度信息,同时提供去分层后的全国聚合版本供机器学习使用;其三,面对455条小规模样本,需谨慎处理年份缺失、国家不连续及置信区间空白等稀疏问题,防止模型过拟合或偏差增强,这也限制了该数据集在深度时序预测任务中的直接应用潜力。
常用场景
经典使用场景
该数据集在公共卫生与流行病学研究中扮演着基础性角色,聚焦于非洲地区15岁以下儿童新发麻风病病例的监测与建模。研究者通常利用其提供的国家层面面板数据,进行麻风病传播趋势的时间序列分析或空间分布异质性评估。借助连续年份的病例率数值及置信区间,可构建回归模型以探究社会经济、气候或免疫覆盖率等因素对儿童麻风病检出率的潜在影响,亦可作为疾病负担预测与卫生资源规划的核心输入。
解决学术问题
该数据集有效应对了非洲儿童麻风病流行病学研究中长期存在的数据稀疏与标准化缺失问题。通过整合WHO全球卫生观察站统一口径的指标,学术工作者得以跨越国别数据壁垒,系统分析消除麻风病策略在儿童群体中的成效差距。其提供的置信区间强化了统计推断的可靠性,使研究者能够评估干预措施的边际效果、识别高传播风险区域,并为全球终止麻风病传播的战略目标提供循证依据。
实际应用
在实际公共卫生干预中,该数据集的时序指标可被各国疾病控制机构用于监测儿童麻风病新发病例的动态变化,辅助判定疫情反弹或消灭进展。非政府组织与联合国机构可据此优化筛查资源的地理分配,例如在检出率异常升高的国家启动针对性健康教育或接触者追踪。此外,跨年份的标准化数值也支持世界卫生组织评估区域防治规划的阶段性成效,调整化疗药物供应与病例管理策略。
数据集最近研究
最新研究方向
基于WHO全球卫生观测站数据,非洲15岁以下儿童新发麻风病检测率(NTD_LEPR13)数据集正推动区域健康不平等与传染病消除进程的量化研究。该数据集覆盖2012至2024年间47个非洲国家的年度观测值,被广泛应用于机器学习驱动的流行病学建模与风险预警。在全球加速实现‘零麻风病’目标的背景下,研究者利用该数据集评估儿童病例检测率的时空演变规律,探索气候迁移、医疗可及性与贫困陷阱对麻风病传播的影响,同时为WHO非洲区域的干预策略优化提供数据支撑。其高时效性与标准化结构,使其成为监测2030年可持续发展目标中消除被忽视热带病进展的关键工具。
以上内容由遇见数据集搜集并总结生成



