five

electricsheepafrica/africa-who-number-of-non-autochthonous-leprosy-cases

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-non-autochthonous-leprosy-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2016年至2024年间世界卫生组织全球健康观察指标非本土麻风病例数量(NTD_LEPR14)的国家级观测数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of non-autochthonous leprosy cases (NTD_LEPR14) across African nations, spanning 2016–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲区域非本土麻风病例数量(指标代码NTD_LEPR14)。数据以Parquet文件格式重新封装,采用统一的数据模式,所有观测值均直接提取自浮点精度字段NumericValue,而非显示字符串。数据集涵盖2016至2024年间47个非洲国家共278条记录,每条记录对应一个国家与年份的组合,无额外子维度分层。
特点
数据集以标准化结构呈现,包含指示码、国家ISO3代码、世卫组织区域、观测年份、数值估计值及其置信区间上下限等关键字段。数值字段value_numeric作为机器学习的主要目标变量,置信区间字段则提供了不确定性度量。此外,数据还保留了显示字符串及更新时间戳,便于追溯与验证,整体设计兼顾了分析的严谨性与使用的便捷性。
使用方法
用户可通过HuggingFace的datasets库便捷加载数据,将训练集转换为Pandas DataFrame后即可进行分析。例如,通过筛选dim1列中以_BTSX结尾或为空的行,可获取全国层面且不分性别的数据;按国家ISO3代码(如KEN)过滤并排序年份,则可构建单一国家的时间序列。该数据集适用于分类与回归任务,尤其适合非洲区域麻风病流行病学建模与趋势研究。
背景与挑战
背景概述
麻风病作为一种被忽视的热带病,在全球多个地区仍构成公共卫生挑战,尤其在非洲大陆,其流行态势与疾病监测数据的可及性密切相关。世界卫生组织全球卫生观察站(WHO GHO)自2016年至2024年间,系统收录了非洲47个国家关于非本地获得性麻风病例数(NTD_LEPR14)的年度观测数据。该数据集由Electric Sheep Africa团队依据CC BY 4.0许可协议重新整理并发布,旨在为机器学习研究提供统一、结构化的非洲健康数据资源。其核心研究问题聚焦于追踪外来输入病例的时空分布模式,以支持区域性的疾病传播建模与干预策略评估。该数据集的发布填补了非洲麻风病流行病学中本土与非本土病例区分的数据空白,对全球健康监测及跨区域传染病控制具有重要推动作用。
当前挑战
该数据集所解决的领域问题在于量化记录和解析非洲地区非本地获得性麻风病例的分布特征,识别输入性传播风险,从而辅助制定针对性防控措施。然而,构建过程中面临多重挑战:首先,WHO GHO原始数据来源庞杂,涵盖不同国家和时期的报告标准可能存在差异,一致性维护难度大;其次,数据总量有限(278条记录),样本稀疏性可能导致机器学习模型泛化能力不足;此外,置信区间信息(value_low和value_high)仅在部分观测中可用,这为不确定性建模带来困难;最后,数据集中缺乏对诊断方法、病例分类标准及社会人口学协变量的详细标注,使得因果推断和误差分析受限。
常用场景
经典使用场景
在非洲区域公共卫生与流行病学研究中,该数据集被广泛用于追踪非本土麻风病例的时空分布特征。研究者通过国家层面的年度观测数据,剖析外来输入病例的传播动态与区域聚集性,进而评估跨国边界防控措施的有效性。凭借47个非洲国家长达九年的定量记录,学者能够构建流行的基线模型,识别易感人群聚居地与跨境流动热点,为后续干预策略提供循证支撑。
解决学术问题
该数据集直接回应了两个核心学术难题:一是量化非洲大陆非本土麻风病例的流行负荷与变化趋势,填补了区域级标准化长期监测数据的空白;二是辅助探究输入性传播与本土传播的界线划分问题,支持疾控机构区分境外流入与内源性蔓延。其意义在于为WHO消除麻风病全球战略中的东南亚与非洲联动研究,提供了可比且可复现的定量基础,推动了跨境传染病监测指标体系的数据驱动变革。
衍生相关工作
该数据集衍生出多项标志性工作:科研团队基于其结构化格式,构建了面向非洲被忽视热带病的多指标预测基线系统,将NTD_LEPR14与同期麻风新发病例数联动分析,揭示漏报与输入性病例的关联;同时促进了数据标准化管线的开发,使得下游工作者可快速将WHO GHO原始端点转换为符合ML—Ready规范的Parquet文件,降低了非洲健康数据科学的接入门槛。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务