electricsheepafrica/africa-who-number-of-new-reported-cases-of-human-african-ntd5
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-new-reported-cases-of-human-african-ntd5
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家1990年至2024年间世界卫生组织全球健康观察指标新报告的人类非洲锥虫病(T.b. rhodesiense)病例数(NTD_5)的国家级别观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。该数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator Number of new reported cases of human African trypanosomiasis (T.b. rhodesiense) (NTD_5) across African nations, spanning 1990–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集来源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区人类非洲锥虫病(T.b. rhodesiense)的新报告病例数。原始数据以Parquet文件格式重新打包,采用统一的字段架构,确保机器学习场景下的即用性。所有数值均取自高精度的NumericValue字段,而非展示字符串,同时保留置信区间上下限(value_low、value_high)。数据覆盖1990年至2024年间10个非洲国家,共计213条记录,仅包含WHO非洲区域(AFR)的观测值。
特点
该数据集的核心特点在于其精炼的时序结构与区域聚焦性。每个国家-年份组合对应单一观测值,不存在子维度分层,简化了分析流程。字段设计兼顾统计严谨性与建模便利性:既提供点估计值作为主要的机器学习目标,又附带了可选的置信区间信息来量化不确定性。此外,数据集遵循CC BY 4.0开源许可协议,并经过Electric Sheep Africa团队的标准化处理,确保与HuggingFace生态的无缝集成。
使用方法
用户可通过HuggingFace datasets库便捷加载数据,调用load_dataset函数即可获得训练集格式的DataFrame。典型应用包括时序分析与跨国比较,例如过滤dim1字段中的'SEX_BTSX'值以获取全国性两性合计数据,或按country_iso3筛选特定国家的时间序列。对于回归任务,value_numeric列可直接作为预测目标;分类任务中则可基于病例数阈值构建标签。Parquet格式支持高效的内存处理,适合与Pandas、Scikit-learn等工具链配合使用。
背景与挑战
背景概述
非洲人类锥虫病(昏睡病)是由布氏罗德西亚锥虫引起、经采采蝇传播的一种被忽视的热带病,在撒哈拉以南非洲地区造成严重公共卫生负担。由世界卫生组织(WHO)全球卫生观察站(GHO)于2024年发布的该数据集,聚焦于非洲十国1990至2024年间新报告的人类非洲锥虫病(T.b. rhodesiense)病例数(指标代码NTD_5),由Electric Sheep Africa团队重新封装为机器学习就绪格式。该数据集旨在为疾病监测与流行病学建模提供标准化、可复现的时间序列数据,其统一模式可支持跨区域比较与趋势分析。作为WHO官方开放数据与开源社区合作的产物,该数据集对于推动被忽视热带病的研究、增强非洲地区健康数据的可获取性具有关键价值。
当前挑战
该数据集所解决的领域核心挑战在于,人类非洲锥虫病虽属于致命性被忽视热带病,但长期面临病例报告不完整、监测体系薄弱的困境。数据集通过系统化WHO官方统计数据,提供了1990至2024年间十个非洲国家的时间序列数据,力图弥补诊断与报告不充分导致的疾病真实负担被低估问题,从而提升机器学习模型在疾病预测与资源分配中的准确性。在构建过程中,挑战集中于从GHO OData API提取并清洗异构原始数据、确保观测值(NumericValue)而非显示字符串的精度、以及处理仅213条记录的小样本规模。此外,部分年份缺少置信区间数据,且无性别或年龄分层信息,限制了细粒度分析的可能性。
常用场景
经典使用场景
在非洲传染病流行病学研究中,该数据集被广泛应用于人类非洲锥虫病(布氏罗得西亚锥虫感染)的时空分布建模与趋势分析。研究者利用其覆盖1990至2024年间十个非洲国家的年度新发病例数,构建时间序列预测模型或面板数据回归,以揭示该疾病的传播动态与波动规律。数据集提供的点估计值与置信区间边界,为贝叶斯分层模型或概率性风险评估提供了可靠输入,使其成为监测非洲锥虫病复燃风险的标准参考数据之一。
解决学术问题
该数据集解决了非洲锥虫病流行病学研究中长期存在的三个核心学术问题:一是缺乏长期、标准化、跨国可比的病例报告数据,限制了区域性的疾病负担量化与联防联控策略评估;二是现有数据多分散于各国外机构,难以支撑机器学习模型的统一训练与验证;三是缺乏置信区间等信息,导致风险评估不确定性难以量化。通过提供结构化、经过清洗的帕奎特格式数据,该数据集使得研究人员能够对发病率趋势、干预效果及潜在传播热点进行可靠的统计推断与预测建模。
衍生相关工作
基于该数据集衍生的工作主要集中在三大方向:一是锥虫病时空风险预测模型的构建,如采用长短期记忆网络结合环境变量预测区域发病峰值;二是疾病消除临界阈值估计,通过生存分析估算病例数降至零所需年限与干预强度;三是多疾病联合分析,将该数据集与非洲其他被忽视热带病(如盘尾丝虫病、血吸虫病)发病数据并置,评估综合控制策略的协同效应。这些工作推动了机器学习与传染病流行病学的交叉融合,也为WHO 2030年消除锥虫病的路线图提供了量化依据。
以上内容由遇见数据集搜集并总结生成



