electricsheepafrica/africa-who-leprosy-number-of-cases-registered-for-treatment
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-leprosy-number-of-cases-registered-for-treatment
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2012年至2024年间,世界卫生组织全球健康观察站(WHO GHO)关于麻风病 - 注册治疗病例数(指标代码:NTD_LEPR3)的国家级观察数据。数据来源于WHO GHO OData API,并以Parquet文件格式重新打包,包含数值估计(value_numeric)、置信区间(value_low, value_high)等信息。数据集覆盖47个非洲国家,共454行数据,是Electric Sheep Africa项目的一部分,旨在为机器学习提供统一的非洲数据资源。
This dataset contains country-level observations for the WHO GHO indicator Leprosy - Number of cases registered for treatment (NTD_LEPR3) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区麻风病患者登记治疗数量的关键指标(NTD_LEPR3)。数据经过系统化抽取与清洗,从原始API中以浮点精度字段'NumericValue'提取核心值,而非依赖显示字符串,同时纳入置信区间上下界(value_low、value_high)以保障统计严谨性。所有观测值被统一封装为Parquet格式文件,遵循一致的数据模式,覆盖2012至2024年间47个非洲国家的454条记录,仅筛选WHO非洲区域(ParentLocationCode = 'AFR')的国别级数据,确保地域聚焦与时间跨度的完整性。
特点
本数据集以简洁而高信息密度的结构著称,每一条记录代表一个国家在特定年份的单一观测值,无额外分层子维度(如性别或年龄组),便于直接用于时间序列分析或回归建模。核心字段包括标准化的指标代码、ISO 3166-1 alpha-3国家代码、年份及浮点型数值,并附有置信区间以评估估计精度;此外还提供格式化显示字符串与最新更新时间戳,兼顾机器可读性与人工审阅需求。其Parquet存储格式优化了存储效率与加载速度,尤其适合批量数据处理与机器学习流水线集成。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,一行代码即可将其转换为Pandas DataFrame进行后续分析。针对多维度数据,推荐通过过滤'dim1'字段(如'SEX_BTSX'代表两性合计)提取国家级别的总体趋势,或按'country_iso3'筛选特定国家的历年时间序列。对于缺失值或分层聚合场景,可依据'dim1'与'dim2'列灵活处理;置信区间字段为构建概率预测或误差棒可视化提供了直接依据。整体而言,该数据集以ML-ready的格式降低了非洲卫生数据的访问门槛,简化了从原始统计到建模应用的转化流程。
背景与挑战
背景概述
麻风病作为一种慢性传染病,在全球公共卫生领域长期受到关注,尤其在资源有限的非洲地区,其治疗与监测数据对疾病控制策略的制定至关重要。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2024年整理并发布,经Electric Sheep Africa机构重新封装为机器学习就绪格式,覆盖2012至2024年间47个非洲国家的麻风病登记治疗病例数,核心指标编码为NTD_LEPR3。该数据集旨在为流行病学建模、公共卫生监测及数据驱动决策提供标准化、可复用的量化资源,推动非洲区域麻风病防控研究的深入发展。其系统化整合了多年多国观测值,填补了非洲大陆麻风病治疗登记数据的开放获取空白,对全球健康不平等问题的实证分析具有重要支撑价值。
当前挑战
该数据集所解决的领域问题主要集中于麻风病治疗覆盖率的量化评估与时空动态监测,挑战在于非洲地区医疗报告系统不完善导致的数据缺失与延迟,以及不同国家间诊断标准和登记口径的差异可能引入的统计偏倚。在构建过程中,面临从WHO OData API提取多源异构数据时的格式统一与精度保留难题,例如需确保从数值字段而非显示字符串中准确提取浮点型观测值,并处理置信区间边界在部分年份或国家的遗漏问题。此外,跨年度数据一致性维护、47国ISO代码映射的准确性校验,以及将原始多维度分层变量(如性别、居住地区)整理为适合机器学习的扁平化表格结构,均增加了数据清洗与变换的复杂性。
常用场景
经典使用场景
该数据集聚焦于非洲地区麻风病在册治疗病例数的监测,覆盖2012至2024年间47个国家的年度观测值。作为世界卫生组织全球卫生观察站指标的机器学习友好版本,它被广泛用于流行病学时间序列分析,通过清洗后的浮点数值与置信区间,研究者可构建预测模型,追踪麻风病负担的时空演变轨迹。其结构化列式格式也适用于多国家间的横向比较,为区域卫生政策的量化评估提供了可靠的数据基石。
实际应用
实际应用中,该数据集为非洲各国卫生部门的疾病歼灭规划提供了数据引擎。研究人员可据此开发预警系统,识别麻风病登记数异常波动的区域;非政府组织能利用时间序列预测资源分配需求,优化诊断与治疗覆盖率。此外,结合气候、人口流动等外部数据构建多层次模型,有助于在医疗资源匮乏地区实现精准干预,减少因延误治疗导致的不可逆神经损伤。世界卫生组织亦参考此类分析更新区域防控指南。
衍生相关工作
该数据集催生了若干方向性工作:基于WHO GHO的统一非洲数据集规范被采纳为类似健康指标的模板;研究者开发了针对稀疏时序的填补算法,以应对特定国家多年缺失值问题;同时,多任务学习框架被用于联合预测多种被忽视的热带病,揭示麻风病与其他地方性疾病(如沙眼、血吸虫病)并发的地理模式。这些工作显著提升了非洲大陆级公共卫生数据的利用效率,并促使更多机构参照此标准重构历史数据。
以上内容由遇见数据集搜集并总结生成



