electricsheepafrica/africa-who-retreatment-cases-treatment-after-failure
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-retreatment-cases-treatment-after-failure
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在1996年至2012年间,关于复治病例:治疗失败后的治疗(肺涂片和/或培养阳性)这一WHO GHO指标的国别观察数据。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。如果可用,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Retreatment cases: treatment after failure (pulmonary smear and/or culture positive) (`TB_ret_taf`) across African nations, spanning 1996–2012. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区结核病复治病例中治疗失败(痰涂片和/或培养阳性)的指标(TB_ret_taf)。数据覆盖1996年至2012年间47个非洲国家,共计559条观测记录。原始数据经过系统化整理,以Parquet格式存储,采用统一架构,并优先使用数值型字段(NumericValue)而非显示字符串,同时保留了置信区间上下界(value_low, value_high)等关键统计信息,确保了数据在机器学习场景下的直接可用性。
使用方法
用户可通过HuggingFace的datasets库便捷加载此数据集,一行代码即可将其转换为Pandas DataFrame进行分析。典型应用包括按性别(如BTSX)或居住地类型筛选国家级数据,以及针对特定国家(如肯尼亚,ISO代码KEN)按年份排序后构建时间序列模型。数据集自带的各省略值处理方式和清晰的列名设计,使其无缝对接回归或分类任务,尤其适用于预测结核病治疗失败率的变化趋势与区域差异研究。
背景与挑战
背景概述
结核病(TB)的复治与治疗失败是全球公共卫生领域面临的严峻挑战,尤其在医疗资源分布不均的非洲地区。为系统监测这一关键指标,世界卫生组织(WHO)通过全球卫生观察站(GHO)发布了‘复治病例:治疗失败(肺部涂片和/或培养阳性)’这一指标,数据涵盖了1996年至2012年间47个非洲国家的559条观测记录。该数据集由Electric Sheep Africa团队重新整理,采用统一的Parquet格式与标准化架构,旨在为机器学习驱动的非洲健康研究提供高质量的基础数据资源。其核心研究问题聚焦于追踪结核病复治失败案例的时空演变,为制定精准干预策略、评估区域防控效果以及优化资源配置提供量化依据。作为非洲健康数据仓库的重要组成部分,该数据集不仅提升了结核病流行病学研究的可复现性,也推动了数据驱动决策在资源受限地区的应用,对全球健康研究具有显著的促进意义。
当前挑战
该数据集主要面临的挑战源于其解决的核心领域问题:结核病复治失败反映了耐药性结核病(MDR-TB)的蔓延趋势,但由于非洲各国诊断能力、报告体系差异巨大,导致数据质量参差不齐,部分年份或多个国家的指标值缺失,从而影响时间序列分析与跨国家比较的可靠性。在构建过程中,团队需应对跨来源数据整合的复杂性,尤其是从WHO GHO的OData API中精准提取数值字段并过滤字符串展示格式,同时处理置信区间边界值的不一致性与缺失问题。此外,由于该指标无子维度分层(如性别或年龄组),无法深入剖析不同人群的异质性,限制了更精细的流行病学建模。数据集的规模(不足1000行)和仅覆盖至2012年的时间跨度,也使其在长期趋势预测与因果推断任务中面临样本量不足和时效性挑战,需依赖外部数据源进行扩展与验证。
常用场景
经典使用场景
该数据集聚焦于非洲地区肺结核复治病例中经失败后治疗的流行病学指标,涵盖1996年至2012年间47个非洲国家的年度观测数据。其经典使用场景在于构建时间序列预测模型,以揭示结核病治疗失败后复治病例的演变趋势,为区域疾病负担评估提供量化依据。通过整合置信区间信息,研究者可进行不确定性分析,提升模型的稳健性。数据以Parquet格式存储,便于机器学习流水线直接调用,适用于监督学习中的回归与分类任务,如预测病例数的波动或识别高发国家。
解决学术问题
在学术研究中,该数据集有效应对了非洲结核病治疗失败后复治病例的量化难题,填补了区域层面高粒度流行病学数据的空白。它解决了传统统计中因数据稀疏而难以建模的问题,支持学者分析治疗失败后的复治模式与时空异质性。通过提供点估计与置信区间,研究得以更精确地评估干预措施的效果,例如比较不同国家在控制复治病例上的进展。这不仅深化了对结核病传播动态的理解,还为制定针对性公共卫生策略奠定了方法论基础,推动了循证决策在传染病防治领域的应用。
实际应用
实际应用层面,该数据集为全球卫生机构提供了关键参考,助力非洲各国监测结核病控制项目的成效。公共卫生官员可基于历史病例趋势,优化资源配置,例如在复治高发区加强诊断和治疗随访。世界卫生组织等国际机构可利用数据评估其“终止结核病战略”在非洲的执行情况,识别需要额外支持的国家。此外,非政府组织可结合该数据开展预测性分析,预先应对可能的复治暴发,从而降低医疗系统负担。其标准化的格式也便于与人口、经济等其他数据源融合,支持更广泛的健康政策模拟。
数据集最近研究
最新研究方向
在非洲结核病防控领域,该数据集聚焦于治疗失败后的复治病例这一关键指标,为评估结核病化学疗法效果及耐药性演变提供了珍贵的纵向数据。当前前沿研究正利用此类粒度化的国家级统计资料,结合机器学习方法构建预测模型,以揭示复治病例在时空维度上的分布规律及其与社会经济、卫生体系因素的关联。该数据集的标准化格式与置信区间信息显著增强了模型的可复现性与可信度,其对WHO AFRO区域47国长达十六年的覆盖,为分析非洲结核病防控策略的薄弱环节、优化复治方案以及应对耐药结核病挑战提供了不可或缺的证据基础,对推动全球终结结核病目标的实现具有深远意义。
以上内容由遇见数据集搜集并总结生成



