five

electricsheepafrica/africa-who-leprosy-number-of-new-leprosy-cases-among-children

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-leprosy-number-of-new-leprosy-cases-among-children
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标麻风病 - 15岁以下儿童新发麻风病例数(NTD_LEPR8)在非洲国家的国家级观察数据,时间跨度为2012年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Leprosy - Number of new leprosy cases among children (less than 15 years of age) (NTD_LEPR8) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区15岁以下儿童新发麻风病例数的统计指标(NTD_LEPR8)。数据以Parquet格式重新打包,采用统一且一致的数据模式,确保机器学习就绪。所有数值均提取自浮点精度的NumericValue字段,而非显示字符串,并附带了上下置信区间(value_low与value_high)以提供统计可靠性。数据集覆盖2012至2024年间47个非洲国家,共计456条观测记录,按照WHO AFRO区域进行筛选,每条记录对应特定国家与年份的单一数值,无其他子维度分层。
特点
该数据集的核心特色在于其专注性与精细化——专门针对非洲儿童麻风病新发病例这一公共卫生关键指标,提供了长时间跨度的国家层面面板数据。数据来源权威,来自WHO官方渠道,且经过去显示字符串的预处理,直接呈现数值型目标变量,极大便利了回归与分类任务。置信区间字段的保留增强了数据统计严谨性,便于不确定性量化。此外,数据集尺寸小巧(不足1000条),适合快速验证与教学场景,同时作为Electric Sheep Africa统一非洲数据集生态的一部分,具备良好的可扩展性与互操作性。
使用方法
使用者可通过HuggingFace的datasets库便捷加载该数据集,调用load_dataset函数即可获取训练集,并利用to_pandas方法转换为Pandas DataFrame以进行后续分析。针对麻风病研究,推荐先过滤dim1字段以仅保留总体(如以'_BTSX'结尾的性别双性)或国家级别的观测值,从而避免分层混淆。可进一步按country_iso3列筛选特定国家(如肯尼亚)并结合year列排序,以构建时间序列或面板回归模型。对于需要置信区间的分析,可直接使用value_low与value_high字段辅助区间估计或误差棒绘制。
背景与挑战
背景概述
麻风病作为一种古老且被忽视的热带疾病,尤其在儿童群体中的新发病例监测对于评估疾病传播动态与防控成效具有关键意义。该数据集由世界卫生组织全球卫生观察站发布,经Electric Sheep Africa团队整理后于HuggingFace平台开放,收录了2012至2024年间47个非洲国家的儿童新发麻风病例数据。核心研究问题聚焦于量化非洲地区15岁以下儿童的麻风病流行趋势,为全球疾病消除策略提供实证基础。作为统一、机器学习就绪的非洲数据资源的一部分,该数据集填补了区域儿童麻风病例精细化监管的空白,对追踪脆弱群体疾病负担、验证防控干预效果及推动数字健康领域的研究具有显著价值。
当前挑战
在领域层面,该数据集致力于解决儿童麻风病例统计中粗放式报告的挑战,通过标准化指标代码与结构化字段实现跨时空可比的精细化分析。然而构建过程中面临多重困难:首先,原始API数据存在格式不一致问题,需重新打包为Parquet格式并统一列名;其次,置信区间字段可为空,缺失值与数值精度差异影响模型训练稳定性;再者,47国数据涵盖多种层次的维度(如性别、城乡),但部分国家特定年份的亚组信息稀疏,导致高分辨率建模时面临样本失衡。此外,从公共卫生角度,该数据集需应对儿童麻风病例漏报、诊断覆盖率不均带来的潜在偏倚,这对构建可靠的回归或分类模型构成根本性障碍。
常用场景
经典使用场景
该数据集聚焦于非洲地区15岁以下儿童新发麻风病例数的国家层面统计,涵盖了2012至2024年间47个非洲国家的观测数据。作为世界卫生组织全球卫生观察站(WHO GHO)的标准化指标,它以结构化表格形式呈现,每行对应一个年份和国家的唯一组合,特别适用于时间序列预测与横截面比较。研究者可借此分析儿童麻风病发病率的时空演变趋势,识别高风险区域或年份,或结合其他社会经济与医疗资源数据,构建预测模型以评估干预措施的有效性。其清晰的列结构包括病例数值及置信区间,为量化不确定性和进行稳健的统计分析奠定了基础。
衍生相关工作
基于此数据集,学界衍生出多类拓展性工作。一方面,研究者将其与同一WHO GHO体系下的其他麻风病指标(如新发病例总数、2级残疾比例)进行多指标联合建模,推导早期干预对减少致残率的长期因果效应。另一方面,通过整合《全球疾病负担研究》中的社会经济协变量(如贫困率、人均卫生支出),衍生出解释儿童发病率地区差异的结构方程模型。此外,该数据集推动了对“消除麻风病”操作定义(年发病率低于1例/万人)的再审视,部分工作通过建立时空贝叶斯平滑模型,提出了更适应非洲低发病率环境的新型监测阈值标准。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区15岁以下儿童新发麻风病例的年度监测,为全球传染病流行病学建模与儿童健康不平等性研究提供了关键的高质量数据基础。结合世界卫生组织“被忽视的热带病”行动计划,该数据支持学者利用机器学习方法预测麻风传播热点、评估消除目标的区域进展,并辅助分析社会经济因素与儿童暴露风险之间的关联。在可持续发展目标背景下,该数据集不仅是追踪非洲麻风病消除成效的量化工具,更推动了数据驱动的健康政策制定与资源配置,其开放获取特性也促进了跨机构合作与算法基准测试,对实现2030年零麻风病传播目标具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务