five

electricsheepafrica/africa-who-number-of-new-g2d-leprosy-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-new-g2d-leprosy-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2012年至2024年间WHO GHO指标Number of new G2D leprosy cases(NTD_LEPR5)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of new G2D leprosy cases (NTD_LEPR5) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,精心整合了2012至2024年间47个非洲国家的麻风病新发病例数据(指标代码NTD_LEPR5)。数据通过统一的Parquet格式文件进行封装,所有数值均提取自高精度浮点型字段NumericValue,并保留了置信区间上下限,以支持更深度的统计分析。作为Electric Sheep Africa项目的一部分,该数据集旨在为机器学习应用提供一个标准化、可直接使用的非洲健康数据资源。
特点
数据集聚焦于非洲区域麻风病新发病例的年度国家层面观测,覆盖47个国家共444条记录,单一年度每个国家仅对应一个聚合值,无额外分层维度干扰。其核心优势在于数据源的权威性和格式的统一性,包含指示代码、国家ISO编码、WHO区域、年份、数值点估计及置信区间等关键字段,并附带数据更新时间戳,便于追踪数据版本变化。这种简洁而严谨的结构使其成为时间序列分析和区域健康监测的理想基础。
使用方法
用户可通过Hugging Face的datasets库便捷加载数据,执行`load_dataset`命令即可获取训练集并转换为pandas DataFrame进行分析。典型应用包括针对特定国家(如肯尼亚)按年份排序绘制时间序列趋势,或通过过滤dim1字段中的`_BTSX`后缀来筛选全国总人口数据(男女合计),排除性别和城乡等亚组分层,专注于宏观流行病学洞察。数据集可直接用于回归或分类任务,预测或分析非洲国家的麻风病负担变化。
背景与挑战
背景概述
麻风病作为一种古老的慢性传染病,在全球范围内仍对公共卫生构成挑战,尤其是未能早期诊断所导致的二级残疾(G2D)病例,是衡量疾病控制成效的核心指标。非洲地区因医疗资源分布不均、监测体系薄弱,长期面临麻风病防控的严峻考验。在此背景下,世界卫生组织(WHO)于2024年通过全球卫生观察站(GHO)发布了覆盖2012至2024年、包含47个非洲国家的“新发G2D麻风病例数”数据集(指标代码NTD_LEPR5),并由Electric Sheep Africa团队重新整理为机器学习就绪格式。该数据集聚焦于疾病晚期残疾的流行病学动态,为评估消除麻风病策略的成效、识别高负担区域及优化干预资源配置提供了关键量化依据,对全球健康不平等研究和疾病监测领域具有重要的推动作用。
当前挑战
该数据集所解决的领域问题核心在于麻风病二级残疾病例的量化监测,此类数据长期因报告不一致、诊断标准差异而难以被标准化建模。非洲地区内部医疗体系差异显著,病例漏报与诊断延迟普遍存在,导致原始数据可能存在系统性偏差。在构建过程中,挑战主要来源于多源异构数据的整合:WHO的OData API返回的数值需从字符串类型中精确提取,且置信区间字段缺失率较高,处理中需平衡数据完整性与一致性。此外,时间跨度为12年而总样本量仅444条,稀疏的时间序列与部分国家数据缺失使得趋势分析与预测建模面临困难,需谨慎处理跨年度与国家间的可比性问题。
常用场景
经典使用场景
该数据集记录了2012至2024年间非洲47个国家麻风病新发病例中2级残疾(G2D)的数量,是传染病流行病学研究中不可或缺的时空观测资源。其经典使用场景聚焦于构建回归与分类模型,用以预测和监测麻风病严重病例的年度分布趋势。研究者可结合国家、年份等特征,探索麻风病致残负担在非洲不同地区的动态演变规律,为全球热带病防控策略的制定提供量化依据。
实际应用
在实际应用中,该数据集服务于非洲各国卫生部门及国际组织(如WHO)的疾病监测与资源分配工作。利用历史新发病例数据,公共卫生官员可以识别高负担国家与年度异常波动,从而优化麻风病诊断、治疗与康复服务的投放。此外,数据集作为机器学习训练材料,支持开发早期预警系统,帮助在卫生基础设施薄弱的地区实现主动筛查与干预。
衍生相关工作
围绕该数据集衍生的经典工作包括时空统计建模、疾病传播动力学仿真以及健康指标预测基准测试。例如,研究者利用其构建贝叶斯层次模型或梯度提升回归树,揭示麻风病G2D病例在国别和年份维度上的风险因子。该数据集也被作为非洲公共卫生数据集系列的核心组件,催生了面向低收入地区的疾病负担归因分析、医疗资源覆盖率估算等方向的研究成果。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务