five

electricsheepafrica/africa-who-number-of-deaths-due-to-tuberculosis

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-deaths-due-to-tuberculosis
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家因结核病(不包括HIV)导致的死亡人数的国家级别观察数据,时间跨度为2000年至2024年。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Number of deaths due to tuberculosis, excluding HIV" (`TB_e_mort_exc_tbhiv_num`) across African nations, spanning 2000–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区因结核病(排除HIV合并感染)导致的死亡人数。通过系统化抓取与清洗,将原始API响应中的浮点精度数值字段(NumericValue)提取为核心数据列,而非依赖显示字符串。数据以Parquet格式统一封装,保留置信区间上下界(value_low, value_high)等关键统计信息,并整合为包含46个非洲国家、跨越2000年至2024年的1,139条观测记录。整体架构遵循Electric Sheep Africa项目标准,确保数据一致性及机器学习就绪性。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,例如使用load_dataset函数获取训练集并转换为Pandas DataFrame进行分析。对于需要聚焦于特定分析维度的情况,建议筛选dim1列中以'_BTSX'结尾的行或该列为空的行,从而提取全国层面、两性合计的估算值。单国时间序列分析可通过过滤country_iso3列并依year排序实现。此外,利用value_low与value_high列可构建误差棒或进行置信区间可视化,增强研究结果的科学可靠性。
背景与挑战
背景概述
在全球公共卫生监测体系中,结核病作为严重威胁人类健康的传染病之一,其死亡率的准确估算对于评估防控成效、优化资源配置具有不可替代的基石作用。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)于2024年创建,并由Electric Sheep Africa团队重新封装为机器学习就绪格式,聚焦非洲地区46个国家2000至2024年间排除HIV影响的结核病死亡人数。核心研究问题旨在提供高频次、标准化、机器可解析的结核病死亡率数据,以支持跨国家、跨时间维度的预测建模与政策评估。这一数据集填补了非洲大陆高质量结核病死亡率结构化数据的空白,为流行病学研究、卫生经济学分析及联合国可持续发展目标监测提供了关键输入,显著提升了相关领域数据分析的深度与广度。
当前挑战
该数据集所解决的领域问题在于,传统结核病死亡率统计常因数据来源异构、报告延迟或分类标准不统一而难以直接用于机器学习建模,尤其是在数据基础设施薄弱的非洲地区,缺乏连贯、清洁且带有置信区间的时间序列数据构成重大瓶颈。构建过程中面临多重挑战:一方面,WHO OData API返回的原始数据包含复杂的维度字段(如性别、居住地类型),需设计稳健的解析逻辑以提取单一要点估计值,同时剔除冗余或冲突的记录;另一方面,需要处理跨年份及跨国家间的数据缺失问题,例如部分国家早期观测值不完整或置信区间缺失,要求构建规范化的缺失值标记与插补策略,以确保数据集在时间序列回归与分类任务中的鲁棒性。
常用场景
经典使用场景
该数据集聚焦于非洲国家2000至2024年间排除HIV因素的结核病死亡人数,是公共卫生与流行病学研究中不可或缺的时空序列资源。经典使用场景涵盖结核病负担的时间趋势分析、疾病热点的地理空间探测,以及基于国家层面的死亡率预测建模。数据以Parquet格式提供,字段包括点估计值与置信区间,便于直接复用为机器学习中的回归任务目标变量。研究者可快速提取国家层级的年度死亡数据,构建纵向队列或面板数据模型,探索社会经济、气候或政策干预对结核病死亡率的影响路径。
解决学术问题
数据集有效填补了非洲大陆在结核病(剔除HIV合并感染)死亡精准量化方面的长期数据缺口。传统全球健康研究常因非洲区域数据稀疏而难以刻画该病种的真实负担,本数据通过统一标准化WHO全球卫生观测站接口,提供了46国25年间的连续观测值,并附带置信区间以量化不确定性。它直接支撑了结核病防控策略的效果评估、地区间死亡率差异的因果推断,以及联合国可持续发展目标结核相关指标的进度监测,为循证政策制定奠定了量化基础。
实际应用
在实际应用中,该数据集服务于非洲各国卫生部的疾病监测系统、国际组织(如WHO、世界银行)的年度健康评估报告,以及非营利机构在结核病高发区的资源分配优化。数据分析师可将其嵌入实时仪表盘,追踪历年死亡人数变化,预警异常波动;建模团队则将其作为输入特征,训练预测模型以指导医疗物资储备与干预优先级排序。此外,该数据与人口、经济、气候等其他开源数据联动,可生成区域健康风险地图,赋能跨境联防联控决策。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区结核病死亡负担的时空演变与健康不平等分析,是当前全球卫生研究的前沿议题。结合WHO‘终结结核病战略’的推进,该数据为量化2000至2024年间46个非洲国家排除HIV影响的结核病死亡人数提供了标准化、机器可读的基石。研究者可借此探索区域异质性、评估干预措施成效,并关联气候变化、冲突和人道主义危机等热点事件,揭示脆弱群体面临的系统性风险。其置信区间字段的纳入,更增强了建模的可靠性,对指导资源分配与政策制定具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务