electricsheepafrica/africa-who-number-of-female-leprosy-new-cases
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-female-leprosy-new-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲各国2012年至2024年世界卫生组织全球健康观察站指标“女性麻风病新病例数量”(NTD_LEPR11)的国家级观察数据。数据来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖47个非洲国家,总行数为438行,地区筛选为WHO AFRO(ParentLocationCode = AFR)。
This dataset contains country-level observations for the WHO GHO indicator "Number of female leprosy new cases" (`NTD_LEPR11`) across African nations, spanning 2012–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区女性麻风病新发病例数(指标代码NTD_LEPR11)。数据经过系统化抽取与清洗,抛弃了显示字符串,直接提取高精度的数值型字段(NumericValue)作为核心指标,并保留了可用的置信区间边界值。所有观测记录以Parquet格式重新封装,采用一致的列式架构,涵盖了2012年至2024年间47个非洲国家的438条国别年度数据,并限定于WHO非洲区域(AFRO)的官方地理范围。
使用方法
使用者可通过HuggingFace的datasets库快速加载数据,调用load_dataset方法即可获得包含全部记录的'训练'集。加载后可直接转换为pandas DataFrame进行后续分析。例如,可通过筛选dim1列中后缀为'_BTSX'的值或空值来获取全国范围的两性综合数据;也可按国家ISO3代码(如'KEN')与年份排序,构建特定国家的时间序列。数据集结构简洁,无需复杂预处理即可直接用于时间序列预测、流行病学建模或数据可视化等场景。
背景与挑战
背景概述
非洲地区是麻风病(汉森病)的流行区域之一,由于医疗资源分布不均、监测体系薄弱,女性患者常面临更严峻的诊断与治疗困境。世界卫生组织(WHO)全球卫生观察站(GHO)自2012年起持续追踪非洲各国的女性麻风病新发病例数,并于2024年经由Electric Sheep Africa项目重新整理,形成统一、机器学习就绪的数据集。该数据集覆盖47个非洲国家、横跨2012至2024年,共计438条记录,聚焦于消除被忽视的热带病(NTDs)的量化评估。以“NTD_LEPR11”为指标代码,它为国家层面的健康政策制定、疾病负担建模以及性别视角下的流行病学分析提供了关键数据支撑,对推动非洲麻风病防控策略的精准化具有重要意义。
当前挑战
该数据集所解决的领域挑战在于:非洲地区女性麻风病新发病例的时空分布规律长期缺乏系统、可计算的数字资源,阻碍了基于数据的干预措施评估与资源分配优化。疾病的社会污名化、低报告率与性别差异更使得传统统计难以捕捉真实发病动态。在构建过程中,数据清洗面临多重难题:原始WHO数据需从OData API中提取并统一数值型字段,避免显示字符串的精度损失;缺失的置信区间边界值需甄别与标注;不同年份与国家间的报告一致性、编码对齐(如ISO国家代码、WHO区域过滤)以及维度归一化(如性别分层字段的处理)均需严格校验。这458条记录虽小,却凝聚了结构异质性、缺失模式与时间序列非平稳性等典型挑战,为后续机器学习建模设下了基准。
常用场景
经典使用场景
在公共卫生与流行病学领域,非洲女性麻风病新发病例数据集为探究性别与传染病传播动态提供了重要支撑。该数据集可应用于构建分类模型,以预测某一国家或地区是否处于高发病率状态;亦可用于回归任务,以估算年度新发病例数量。研究者还可借助时空分析,揭示麻风病在非洲大陆的分布格局及其演化趋势,为精准防控策略的制定提供数据基础。
解决学术问题
该数据集聚焦于解决非洲地区麻风病流行病学研究中女性病例数据匮乏的问题。长期以来,性别维度的病例统计缺失制约了对麻风病传播机制的深入理解。通过对2012至2024年间47个非洲国家的女性新发病例进行系统性整理,该数据集使研究者能够量化性别差异对疾病负担的影响,识别高风险人群,并评估公共卫生干预措施在不同性别群体中的效果,为消除麻风病这一被忽视的热带病贡献循证证据。
实际应用
在实际应用层面,该数据集可为世界卫生组织及非洲各国卫生部门提供决策支持。通过分析女性麻风病新发病例的时间序列变化,公共卫生管理者能够评估既有防控项目的成效,优化资源配置。例如,将病例数据与地理、社会经济变量相结合,可识别需要重点关注和额外援助的社区,从而设计更具针对性的健康教育、早期诊断和治疗策略,推动非洲地区向麻风病零传播目标迈进。
数据集最近研究
最新研究方向
在全球公共卫生领域,麻风病作为一种被忽视的热带病,其性别差异研究正成为前沿焦点。非洲女性新发病例数据集(NTD_LEPR11)的发布,为探究性别不平等在传染病传播中的影响提供了结构化证据。该数据集覆盖2012-2024年间47个非洲国家的年度统计数据,不仅支持传统的时间序列预测与流行病学建模,更赋能研究者运用机器学习方法揭示女性病例背后的社会结构性风险因素,如医疗可及性、性别角色分工等。结合世界卫生组织《2021-2030年被忽视热带病路线图》中强调的性别主流化战略,此项数据资源有助于推动干预措施的精准投放与政策评估。通过整合置信区间等元数据,该数据集亦为不确定性量化与区域异质性分析奠定了坚实基础,彰显了开放数据运动在促进全球健康公平中的核心作用。
以上内容由遇见数据集搜集并总结生成



