five

electricsheepafrica/africa-who-number-of-new-leprosy-cases-with-g2d-among-children

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-new-leprosy-cases-with-g2d-among-children
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2014-2024年间WHO GHO指标15岁以下儿童中G2D新麻风病例数(NTD_LEPR9)的国家级观察数据。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of new leprosy cases with G2D among children (less than 15 years of age) (NTD_LEPR9) across African nations, spanning 2014–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,专注于非洲地区15岁以下儿童中新增麻风病伴G2D病例数(指标代码NTD_LEPR9)的统计。数据经过系统化采集与整合,以Parquet文件格式标准化存储,确保机器学习就绪的兼容性。构建过程中,所有数值均采用原始API中的浮点精度字段NumericValue,而非显示字符串,从而保证了数学运算的精确性。此外,数据集还纳入了置信区间边界值(value_low与value_high),为不确定性分析提供了支撑。覆盖范围涵盖47个非洲国家,时间跨度为2014年至2024年,共计330条观测记录,且通过WHO AFRO区域代码过滤,保证了地理聚焦的严谨性。
特点
该数据集以结构化表格形式呈现,包含多项关键列:indicator_code用于标识指标类型,country_iso3提供ISO 3166-1 alpha-3国家编码,who_region固定为AFR以明确区域归属,year字段记录观测年份,value_numeric作为核心机器学习目标变量,辅以value_low和value_high提供置信区间。此外,value_display列保留了原始显示字符串以备查阅,dim1_type与dim1等维度字段允许对性别或居住地类型等分层的筛选。数据无额外子维度,每个国家-年份组合对应单一数值,简洁而专注,特别适合时间序列分析与区域公共卫生趋势建模。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,使用load_dataset函数指定仓库名称即可获取训练集。加载后,可转换为Pandas DataFrame以进行进一步探索。利用dim1字段可筛选出“两性合计”(_BTSX后缀)或国家级别的数据,从而聚焦于整体趋势。对于特定国家的时间序列分析,可通过country_iso3列(如KEN代表肯尼亚)进行筛选,并结合year列排序,以观察病例数随年份的变化。该方法使研究者能够灵活地开展流行病学建模、区域比较或预测任务,充分利用数据集的结构化优势。
背景与挑战
背景概述
世界卫生组织(WHO)全球卫生观察站(GHO)自2014年起持续监测非洲地区儿童(15岁以下)新发麻风病伴2级残疾(G2D)病例数,该数据集由Electric Sheep Africa团队于2024年整理并发布,覆盖47个非洲国家、横跨2014至2024年的330条国家级观测记录。麻风病作为一种被忽视的热带病,其致残性危害在儿童群体中尤为严峻,该指标的追踪对评估防控成效、揭示疾病传播与残疾进展的规律具有关键意义。作为统一、机器学习的非洲健康数据资源,该数据集为研究麻风病在儿童中的空间分布和时间趋势、评估全球消除目标进展提供了标准化的数据基础,对推动区域公共卫生决策和跨境比较研究产生了重要影响。
当前挑战
该数据集面临的核心挑战包括:一是所解决的领域问题挑战——儿童麻风病G2D病例的时空分布受诊断能力、报告系统完整性及防控政策差异影响,数据稀疏且存在选择性偏差,难以准确反映真实发病率与残疾负担;二是构建过程中的挑战——来自WHO GHO API的原始数据需跨国家、多年份异构格式整合,置信区间字段(value_low、value_high)存在缺失,且指标无亚维度分层(如性别、地区),限制了多因素交互分析,同时330条的样本量较小,给机器学习模型的泛化与鲁棒性带来显著约束。
常用场景
经典使用场景
该数据集聚焦于非洲地区15岁以下儿童新发麻风病且伴有二级残疾(G2D)的病例数量,是评估麻风病在儿童群体中传播态势与致残负担的关键指标。经典使用场景涵盖利用时间序列模型预测病例数的变化趋势,以及基于国家层面的面板数据开展区域间对比分析,探究卫生政策、经济水平与疾病流行之间的关联。此外,该数据常被用于监督学习任务中的回归与分类建模,以识别高风险国家或年度异常波动,为公共卫生资源配置提供量化依据。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。一方面,研究者利用其时间序列特征构建了贝叶斯结构时间序列模型,用于归因评估不同国家消除麻风病干预措施的效果。另一方面,有工作将其与非洲大陆其他传染病数据集(如淋巴丝虫病、血吸虫病)进行对比分析,识别出共性的贫困与卫生基础设施短板。此外,该数据还启示了面向低资源场景的机器学习框架设计,推动可迁移的少样本疾病负担预测方法在非洲健康发展中落地。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区15岁以下儿童新发麻风病例中伴有2级残疾(G2D)的流行病学监测,依托WHO全球卫生观察站(GHO)的官方数据,覆盖2014至2024年间47个非洲国家的年度观测值。在麻风病防控进入后消除时代(post-elimination era)的背景下,儿童G2D病例作为社区传播持续存在的金标准指标,正成为全球热带病研究的前沿热点。数据集为时空流行病学模型、不平等性分析及机器学习驱动的风险预测提供了结构化、可复现的训练基础,尤其支持利用置信区间进行不确定性量化,助力量化SDG 3.3中针对被忽视热带病(NTDs)的终结进展。此外,其统一的Parquet格式与HuggingFace集成,极大降低了非洲卫生数据在可重复计算社会科学与AI4Health领域的使用门槛,推动了数据驱动决策在脆弱卫生系统中的落地。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务