five

electricsheepafrica/africa-who-treatment-success-rate-new-tb-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-treatment-success-rate-new-tb-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标“新结核病例治疗成功率”(TB_c_new_tsr)的国家级观察数据,时间跨度为1995年至2023年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Treatment success rate: new TB cases" (`TB_c_new_tsr`) across African nations, spanning 1995–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦于非洲地区结核病新病例的治疗成功率指标(TB_c_new_tsr)。数据经过系统性整合与清洗,以Parquet格式封装,并统一了列模式。所有数值均采用浮点精度的NumericValue字段,同时保留了置信区间上下限(value_low、value_high)以支持统计推断。数据集覆盖1995至2023年间47个非洲国家,共计1229条观测记录,每条记录对应特定国家与年份,无额外子维度分层,确保了数据的简洁性与一致性。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,使用`load_dataset`函数获取训练集,并快速转换为pandas DataFrame进行分析。在应用时,建议过滤dim1字段以选择特定性别或居住地区类型的分层数据,例如通过筛选`SEX_BTSX`标记获取两性合并的全国级指标。对于单个国家的时间序列分析,可按国家ISO3代码(如KEN代表肯尼亚)过滤,并按年份排序。数据集支持直接用于监督学习任务,其中value_numeric可作为回归目标,也可通过阈值处理转化为分类标签。
背景与挑战
背景概述
结核病作为全球公共卫生的重大威胁之一,其治疗成功率是评估国家结核病控制项目成效的核心指标。世界卫生组织(WHO)全球卫生观察站(GHO)自1995年起系统收集并发布各国结核病治疗成功率数据,为各国制定防控策略提供了关键依据。在此背景下,Electric Sheep Africa团队于2023年构建了africa-who-treatment-success-rate-new-tb-cases数据集,整合了47个非洲国家从1995年至2023年间新发结核病例治疗成功率的年度观测数据。该数据集以标准化的Parquet格式重构WHO的原始OData API数据,包含置信区间等高质量字段,旨在为机器学习研究提供统一、易用的非洲健康数据资源。作为首个聚焦非洲大陆的结核病治疗成效开源数据集,它填补了该区域在数据科学领域细粒度健康指标数据的空白,对推动非洲公共卫生决策的智能化转型具有重要奠基意义。
当前挑战
该数据集所解决的领域核心挑战在于:非洲结核病控制面临显著的区域异质性,包括各国医疗体系差异、诊断覆盖率不均及治疗依从性波动,导致传统统计模型难以精准捕捉跨时空的疗效动态。构建过程中面临多重技术挑战:首先,WHO原始API返回的数据包含多重分层维度(如性别、居住区域),需设计统一策略处理缺失的分层标识及一致性过滤;其次,时间跨度达29年且覆盖47国,数据点仅1229个,稀疏性要求严格的置信区间保留与异常值甄别;此外,不同年份的指标定义可能微调,需在保持连续性的同时标注元数据变更。这些挑战促使数据集采用显式编码分层变量、嵌入置信区间字段及保留原始显示字符串的架构,为后续鲁棒性建模提供了可靠的数据基础。
常用场景
经典使用场景
在结核病流行病学与公共卫生监测领域,africa-who-treatment-success-rate-new-tb-cases数据集是一项重要的数据资产。它汇集了非洲47个国家从1995年至2023年间新发结核病例治疗成功率的官方统计,时间跨度近三十年,为研究者提供了纵向追踪结核病治疗成效的宝贵窗口。经典的使用场景包括构建时间序列模型以预测各国治疗成功率的演变趋势,或利用面板数据分析国家间及区域内的治疗成效差异。此外,该数据集常被用于训练回归模型,以探索社会经济、医疗卫生投入等协变量对结核病治疗效果的影响机制,尤其是在资源受限的非洲背景下具有突出的研究价值。
解决学术问题
该数据集核心解决了结核病防控研究中长期存在的数据碎片化与可获取性不足的学术难题。通过整合世界卫生组织全球卫生观察站发布的官方指标,并以统一、机器学习友好的格式呈现,它显著降低了研究者进行跨国、长时段结核病治疗效果分析的数据门槛。凭借其覆盖47个非洲国家的广泛地理维度和完整的时间序列,该数据集使得学者能够开展关于治疗成功率变化轨迹、区域不平等性以及政策干预效果的实证研究。它为检验结核病控制策略的有效性、识别治疗成效的薄弱环节提供了关键的定量基础,从而推动了全球健康学科中关于传染病治疗质量与卫生系统绩效的深度探讨。
实际应用
在实际应用层面,该数据集为国际卫生组织、非洲各国疾病控制部门以及非政府组织提供了不可或缺的决策支持工具。公共卫生管理者可以借助它对各国结核病治疗项目的执行效果进行横向对比与动态监测,及时发现治疗成功率持续偏低的国家或时间段,从而定向调整资源分配与干预策略。在疫情预警与评估场景中,该数据可被纳入综合性的健康信息系统,辅助构建结核病治疗成效的早期预警指标体系。同时,数据集中包含的置信区间信息也为开展不确定性分析、科学评估政策效果提供了统计依据,促进了从数据到行动的闭环管理。
数据集最近研究
最新研究方向
在非洲公共卫生领域,结核病治疗成功率数据集(africa-who-treatment-success-rate-new-tb-cases)正成为评估区域防痨成效与推动精准干预的关键资源。该数据覆盖1995年至2023年间47个非洲国家的宏观治疗指标,其长时序、跨国家的结构为前沿研究方向——如利用机器学习模型预测治疗成功率时空演变、识别低效地区并归因于卫生系统漏洞或耐药性攀升——提供了坚实基础。结合WHO全球结核病报告及非洲疾病预防控制中心近期倡议(如2023年《非洲结核病战略框架》更新),研究者可借该数据量化疫情后恢复进程,评估资金分配不均对疗效的影响,进而为终结结核病流行这一全球热点议程提供数据驱动的决策支撑,对优化非洲大陆的公共卫生资源配置具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务