electricsheepafrica/africa-who-number-of-imported-cases-of-visceral-leishmaniasis-reported
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-imported-cases-of-visceral-leishmaniasis-reported
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家报告的输入性内脏利什曼病病例数的WHO GHO指标数据(NTD_LEISHVNUM_IM),时间跨度为2013年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖了19个非洲国家,总共有93行数据。
This dataset contains country-level observations for the WHO GHO indicator Number of imported cases of visceral leishmaniasis reported (`NTD_LEISHVNUM_IM`) across African nations, spanning 2013–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 19 African nations with a total of 93 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦非洲区域内脏利什曼病输入病例的年度统计。数据经过统一架构的Parquet文件格式重新封装,保留了`NumericValue`字段的浮点精度作为核心观测值,同时纳入了置信区间上下界(`value_low`、`value_high`)以提供统计推断支持。覆盖2013至2024年间19个非洲国家的92条记录,每个国家-年份组合对应单一观测值,无子维度分层干扰,确保了数据结构的简洁性与机器学习任务的直接适用性。
特点
该数据集的核心优势在于其高度标准化与即用性。所有数值均以浮点数形式呈现,避免了显示字符串的格式噪声,尤其适合作为回归或分类任务的直接输入。数据集还附带了`dim1_type`和`dim1`等字段,虽在本例中无子维度,但保留的架构设计便于未来扩展至分层指标。此外,`last_updated`时间戳确保了数据的新鲜度,而CC BY 4.0许可协议则赋予了用户灵活的重用权限,使其成为非洲健康领域时间序列分析与建模的优质资源。
使用方法
用户可通过HuggingFace的`datasets`库直接加载数据集,例如使用`load_dataset`命令获取训练集并转换为Pandas DataFrame。推荐对`dim1`字段进行过滤以提取全国性数据(例如选择`SEX_BTSX`或空值),从而聚焦于总人口层面的分析。对于特定国家的时序研究,可依据`country_iso3`列筛选并依`year`排序。数据集的低维度(93行、13列)使得其在轻量级探索性分析或小样本预测模型中表现高效,仅需基础Python生态即可完成预处理与建模流程。
背景与挑战
背景概述
内脏利什曼病,又称黑热病,作为一种由利什曼原虫引起的致死性寄生虫病,在全球尤其是非洲地区构成了严峻的公共卫生挑战。为系统追踪该病的跨境传播动态,世界卫生组织(WHO)全球卫生观察站(GHO)设立了专用指标NTD_LEISHVNUM_IM。在此基础上,Electric Sheep Africa团队于近年整合WHO公开数据,创建了该数据集,聚焦非洲19个国家2013至2024年间报告的输入性内脏利什曼病病例数。该数据集以统一、机器学习友好的Parquet格式呈现,为流行病学研究、跨国传播模型构建以及公共卫生政策评估提供了标准化的定量基础,有力推动了非洲区域传染病监测与分析的数据驱动转型。
当前挑战
该数据集所应对的核心领域挑战在于,输入性内脏利什曼病病例的跨国报告与监测长期面临数据碎片化、标准不一以及时空维度稀疏等根本性障碍。传统上,各国卫生系统对输入性病例的定义、记录和报告流程存在显著差异,导致跨区域比较与趋势分析困难重重。在数据集构建过程中,主要遭遇了以下挑战:从WHO GHO API提取原始数据时,不同国家与年份的观测值可能存在空白或置信区间缺失,需设计严谨的字段映射与缺失值处理策略;同时,原始数据中维度字段(如性别、城乡)的划分与编码方式复杂,需进行标准化清洗以确保表结构一致;此外,仅93行的稀疏样本量对后续模型训练与统计推断的稳健性提出了更高要求。
常用场景
经典使用场景
非洲内脏利什曼病输入病例数据集收录了世界卫生组织全球卫生观察站提供的2013至2024年间19个非洲国家的官方通报病例数。作为面向机器学习的表格数据,该数据集最经典的使用场景是进行区域传染病流行病学的时空建模与趋势预测研究。研究者可基于国家-年份层级构建回归模型,挖掘疾病输入模式与气候、人口流动等协变量间的潜在关联,或将其作为监督学习中的回归目标变量,评估卫生系统监测能力的薄弱环节。
解决学术问题
该数据集直接回应了被忽视热带病(NTD)领域缺乏标准化、机器可读的小样本结构化数据的困境。通过提供带有置信区间的病例数值,它使研究者能够进行输入性利什曼病的负担量化与比较风险评估,弥补了非洲区域在跨境疾病传播研究中的数据缺口。其意义在于为验证输入病例与地方性流行之间的关系、评估国际卫生条例核心监测指标的达成情况提供了可重复分析的基线证据,从而推动了循证疾病控制策略的制定。
衍生相关工作
围绕该数据集衍生出的经典工作包括两类:一是融合地理信息与人口流动网络的多源负二项回归模型,用以估算未报告病例并修正监测偏倚;二是采用贝叶斯结构时间序列方法,将非洲多国输入病例数据与外推的气候环境协变量耦合,生成后验概率型预警地图。此外,该数据作为Electric Sheep Africa标准化语料库的一员,已被视为构建非洲健康数据联邦学习基准的候选数据集,支撑了跨机构隐私保护下的可复制传染病建模管线。
以上内容由遇见数据集搜集并总结生成



