electricsheepafrica/africa-who-deaths-due-to-tuberculosis-among-hiv-negative-people
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-deaths-due-to-tuberculosis-among-hiv-negative-people
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标HIV阴性人群中因结核病死亡的人数(每10万人口)(`MDG_0000000017`)的国家级观测数据,时间跨度为2000年至2024年。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator Deaths due to tuberculosis among HIV-negative people (per 100 000 population) (`MDG_0000000017`) across African nations, spanning 2000–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集来源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区HIV阴性人群中因结核病导致的死亡率(每10万人口)。数据集由Electric Sheep Africa团队进行整合与再包装,以Parquet格式存储,采用统一的列式结构。原始数据从API接口获取后,直接提取了`NumericValue`字段中的浮点精度数值作为核心指标,并保留了置信区间范围(`value_low`与`value_high`)。数据集覆盖了46个非洲国家,时间跨度为2000年至2024年,共计1139条观测记录。所有条目均经过WHO AFRO区域代码过滤,确保仅包含非洲地区的数据。
特点
该数据集的核心特色在于其针对非洲大陆的专项覆盖,以及高度一致且易于机器学习处理的格式。每个观测值均对应于特定国家与年份的组合,无额外子维度分层,从而保证了数据的简洁性与直接可比性。数据集中包含了点估计值及其置信区间,为不确定性量化提供了基础。此外,统一的标准字段设计(如`country_iso3`、`year`、`value_numeric`)使得跨国家、跨时间趋势分析与建模变得极为顺畅。
使用方法
用户可通过HuggingFace的`datasets`库直接加载数据集,例如使用`load_dataset`函数获取训练集并转换为Pandas DataFrame。数据使用上,推荐通过过滤`dim1`字段(如选择`SEX_BTSX`表示两性合计)来获取全国层面的指标。对于单国家时间序列分析,可按`country_iso3`字段筛选后按`year`排序。数据集采用CC BY 4.0许可协议,允许自由使用与再分发。参考WHO原始指标定义及Electric Sheep Africa的整合说明,可确保分析的严谨性与可复现性。
背景与挑战
背景概述
结核病作为全球十大死因之一,在撒哈拉以南非洲地区尤为严峻,世界卫生组织全球卫生观察站(WHO GHO)持续监测其疾病负担。该数据集由Electric Sheep Africa团队于2024年整理发布,聚焦于非洲46个国家在2000至2024年间HIV阴性人群的结核病死亡率(每10万人口)。基于WHO官方OData API的开放数据,该数据集以统一Parquet格式封装,提供点估计值及置信区间,为非洲卫生政策的量化评估与机器学习建模奠定了可靠基础。作为首个面向非洲区域的标准化结核病死亡率数据集,它填补了精准流行病学研究的数据缺口,推动全球健康不平等议题的实证分析。
当前挑战
该数据集面临的挑战涵盖领域问题与构建过程双重维度。在领域层面,HIV阴性人群的结核病死亡率受检测覆盖率、医疗可及性及病例报告完整性影响,非洲多国基层卫生系统薄弱导致数据缺失或低估,如何从稀疏观测中提取稳健的时空趋势成为核心难题。构建过程中,不同国家数据提交标准不一、年代差异导致的统计口径演变,以及WHO分维度字段(如性别、城乡)的稀疏填充,均要求精细的数据清洗与插补策略。此外,置信区间的不一致性增加了建模时的不确定性量化复杂度,需在有限样本(1139条记录)下平衡模型泛化能力与推断可靠性。
常用场景
经典使用场景
在非洲结核病流行病学研究中,该数据集最为经典的应用是构建结核病死亡率的时空演变模型。通过整合46个非洲国家2000至2024年的年度观测数据,研究者能够精确刻画HIV阴性人群中结核病死亡率的动态变化趋势,识别高负担国家与低负担国家之间的差异格局,并利用置信区间信息评估估计值的可靠性。这种长时序、多国家的面板数据结构为固定效应模型、随机效应模型以及贝叶斯层级模型的搭建提供了坚实的数据基础。
衍生相关工作
围绕该数据集衍生了一系列极具影响力的学术工作。在其中一项经典研究中,研究者利用该数据结合广义线性模型与空间自相关分析,揭示了结核病死亡率与HIV流行率、人均GDP之间的非线性关系,证实了贫困陷阱在结核病传播中的放大效应。另有工作将该数据作为输入特征融入多任务学习框架,实现了对非洲多国结核病死亡率的联合预测,显著提升了低资源国家的模型泛化能力。此外,该数据也常被用作基准测试集,用于验证因果森林与双重机器学习等新型因果推断方法在公共卫生领域的适用性。
数据集最近研究
最新研究方向
在非洲公共卫生领域,结核病作为HIV阴性人群的主要死因之一,其死亡率数据对于评估疾病负担与防控成效具有关键价值。该数据集聚焦于2000至2024年间46个非洲国家的结核病相关死亡统计(每10万人口),依托世界卫生组织全球卫生观察站的权威数据源,以机器学习友好的格式重新整合。当前研究前沿多集中于利用此类长期面板数据构建时空预测模型,以揭示结核病死亡率在气候变化、抗药性演变及疫情后卫生系统韧性等多因素交织下的动态趋势。该数据还为联合国千年发展目标相关指标的监测提供了量化基准,尤其在追踪撒哈拉以南非洲地区结核病控制进展、优化资源配置方面具有深远的实证意义。
以上内容由遇见数据集搜集并总结生成



