five

electricsheepafrica/africa-who-number-of-imported-cases-of-cutaneous-leishmaniasis-reported

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-imported-cases-of-cutaneous-leishmaniasis-reported
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“报告的皮肤利什曼病输入病例数量”(NTD_LEISHCNUM_IM)在非洲国家的国家级观察数据,时间跨度为2013年至2024年。这是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Number of imported cases of cutaneous leishmaniasis reported" (NTD_LEISHCNUM_IM) across African nations, spanning 2013–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,专注于非洲地区皮肤利什曼病输入病例数的年度国家层面统计。涵盖19个非洲国家,时间跨度为2013年至2024年,共包含84条观测记录。所有原始数据均从API中以统一模式提取,转换为Parquet格式存储,并采用一致的数据架构。指标值直接取自浮点精度的`NumericValue`字段,而非其显示字符串,同时保留了可用的置信区间上下限(`value_low`和`value_high`)。数据经过区域筛选(仅限WHO AFRO地区),确保只纳入非洲区域信息,形成高质量、可复用的机器学习数据集。
特点
本数据集具备多项显著特点。首先,它聚焦于非洲大陆特定被忽视的热带病负担指标,为区域健康研究提供了精准聚焦的关注点。其次,数据按国家、年份结构化排列,支持时间序列分析与跨国比较。每条记录不包含子维度分层,即每个国家每年仅对应单一数值,简化了数据处理复杂度,避免了因性别或年龄分层导致的维度冗余。此外,数据包含置信区间字段,增强了统计严谨性,便于研究人员评估估计值的不确定性。整体大小小于1000条记录,轻量而高效,适合快速加载与初步探索。
使用方法
本数据集的使用便捷高效,可直接通过HuggingFace的`datasets`库加载。用户可运行`load_dataset`加载数据后,转换为Pandas DataFrame以便进一步处理。若需过滤出全国水平且男女合计的数据,可通过检查`dim1`字段是否以`_BTSX`结尾或为空来实现。针对特定国家的时间序列分析,则可利用`country_iso3`字段筛选如`KEN`(肯尼亚)的记录,并按年份排序。数据集中的`value_numeric`字段可直接作为机器学习或回归分析的目标变量,而`year`和`country_iso3`可作为特征或分组依据。整个流程基于标准数据格式,无需复杂预处理即可快速接入分析管道。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)的公开数据,核心研究问题聚焦于非洲地区输入性皮肤利什曼病病例的跨国监测与趋势分析。皮肤利什曼病作为一种被忽视的热带病,其输入性病例的精确统计对于评估区域间传播风险、制定跨境防控策略具有关键价值。数据集涵盖2013至2024年间19个非洲国家的84条观测记录,为机器学习驱动的流行病学建模提供了标准化、可复用的数据基础,填补了非洲卫生数据集中针对输入性病例的量化分析空白,对全球健康数据民主化与AI辅助公共卫生决策产生了示范性推动作用。
当前挑战
该数据集所解决的领域问题面临的首要挑战在于皮肤利什曼病输入性病例的归因与监测困境:跨境病例常因诊断不足、报告不一致或消除后复发而被低估,导致区域间传播网络的准确建模异常困难。在数据集构建过程中,需从WHO GHO的异构OData API中提取并清洗数据,处理不同国家间报告标准差异、缺失值以及置信区间完整性等障碍;此外,仅84条记录的有限样本量对机器学习模型的泛化能力构成严峻制约,且需确保跨年份、跨国家的时间序列数据在统一架构下的语义一致性,从而为后续研究者提供可靠的基线参考。
常用场景
经典使用场景
该数据集聚焦于非洲地区皮肤利什曼病输入病例的统计,为传染病流行病学研究提供了标准化的时空数据。经典用法是将国家-年份维度的病例数值与WHO区域指标结合,采用时间序列分析或回归模型,探究输入病例的波动趋势及跨区域传播特征。研究者可借助维度字段(如性别、城乡分层)进行亚组分析,或利用置信区间评估数据可信度,为建模预测与公共卫生监测奠定数据基础。
解决学术问题
数据集填补了非洲皮肤利什曼病输入病例领域可公开获取的机器学习友好型数据缺口,解决了传染病监测中数据碎片化与非标准化问题。它使得学术研究能够系统量化输入病例的疾病负担,分析其与国家卫生政策、边境管控等因素的关联。该数据集的发布促进了跨国比较研究和时空传播模型的构建,增强了学界对非流行区输入性风险的理解,为全球健康治理提供了实证依据。
衍生相关工作
该数据集衍生出一系列经典工作,包括构建非洲热带病输入病例的时空预测模型,结合气候、人口流动等多源数据揭示传播驱动因子。研究者基于此数据发展了区域疾病负担的重估方法,推动了WHO全球卫生观察站指标在机器学习流水线中的标准化应用。此外,Electric Sheep Africa项目的数据集合与重打包工作,亦催生了针对非洲卫生数据的可重复分析框架与开放科学协作研究。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务