five

electricsheepafrica/africa-who-leprosy-registered-prevalence-rate-per-1-000-000-population

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-leprosy-registered-prevalence-rate-per-1-000-000-population
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2012-2024年期间非洲47个国家关于世界卫生组织全球健康观察指标麻风病登记患病率(每100万人口)(NTD_LEPR4)的国家级观测数据。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Leprosy registered prevalence rate per 1 000 000 population (NTD_LEPR4) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经系统化采集与标准化处理后,以Parquet文件格式重新封装。数据涵盖2012至2024年间47个非洲国家的麻风病登记患病率(每百万人),所有数值均取自高精度的浮点型字段NumericValue,并保留了置信区间上下限,确保数据的一致性与机器学习友好性。
特点
该数据集的核心特点在于其简洁且结构化的单值设计——每个国家每年仅对应一条记录,无额外分层子维度,极大便利了时间序列分析与跨国家比较。此外,数据还包含ISO国家代码、WHO区域标识及更新时间戳等元信息,支持高效的数据过滤与追溯。
使用方法
使用者可通过HuggingFace的load_dataset接口直接加载数据,并转换为Pandas DataFrame以进行后续分析。为获取男女合计的全国层面数据,建议对dim1字段进行筛选(如过滤以_BTSX结尾或为空的值)。该数据集适用于监督学习中的回归与分类任务,亦可用于非洲区域麻风病流行病学的纵向研究。
背景与挑战
背景概述
麻风病作为一种曾被全球广泛关注的慢性传染病,尽管在多数地区已得到有效控制,但在非洲大陆仍构成不容忽视的公共卫生挑战。该数据集由Electric Sheep Africa团队于2024年整合自世界卫生组织全球卫生观察站(WHO GHO),旨在提供非洲47个国家在2012至2024年间每百万人中麻风病登记患病率的标准化观测值。其核心研究问题聚焦于通过统一的机器学习就绪格式,支持对非洲麻风病流行趋势的时空分析与预测建模。凭借其精细的国别年度粒度及置信区间信息,该数据集为流行病学研究、卫生政策制定以及机器学习在热带病监测中的应用提供了高价值的基础资源,在促进数据驱动的非洲区域健康决策方面具有深远影响。
当前挑战
该数据集所应对的领域挑战在于,麻风病在非洲许多低收入国家依然存在诊断不足、登记系统薄弱与数据缺口等问题,导致传统统计方法难以准确刻画真实流行态势。构建过程中面临的挑战包括:从WHO GHO的OData API中抽取并清洗跨年、跨国的非结构化指标数据,确保以浮点精度而非字符串形式保留数值;处理不同国家间报告标准差异带来的缺失值与异常值;并统一整合为兼容机器学习的Parquet格式,同时保留置信区间等关键统计字段。此外,数据集仅包含单一层级的国家年度观测值,缺乏年龄、性别等子维度分层,限制了其用于更精细化流行病学分析的潜力。
常用场景
经典使用场景
该数据集聚焦于非洲地区麻风病登记患病率的时间序列与空间分布分析,为流行病学研究者提供了跨年度、跨国别的标准化数据源。通过整合2012至2024年间47个非洲国家的年度患病率指标,研究者能够追踪疾病负担的演变趋势,识别高流行区域,并评估防控政策的长期成效。其结构化的字段设计(如点估计值、置信区间上下限)支持进行统计建模与趋势预测,尤其适用于纵向比较与区域异质性分析,是监测非洲麻风病消除进程的重要工具。
解决学术问题
数据集有效解决了非洲麻风病流行病学研究中长期存在的数据碎片化与可比性不足难题,为评估世界卫生组织倡导的麻风病消除目标提供了统一的量化基准。学术上,它助力研究者突破地域限制,开展多国联合研究,以探索社会经济因素、医疗卫生可达性与患病率之间的关联。同时,该数据集的发布促进了开放科学实践,使得全球公共卫生学者能够复现权威机构的统计结果,提升了研究结论的可靠性与透明度。
衍生相关工作
该数据集衍生了一系列围绕非洲被忽视热带病(NTD)的经典研究工作。例如,研究者利用该数据集结合地理空间分析方法,绘制了麻风病患病率的热点分布图,揭示了疾病高发区与贫困指数的空间耦合关系。另有工作将其与WHO其它传染病指标(如淋巴丝虫病、沙眼)进行多病种联合分析,探索共病区域模型。此外,该数据集也催生了基于深度学习的时间序列预测模型,用于模拟干预措施对患病率下降速度的影响曲线。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务