electricsheepafrica/africa-who-treatment-success-rate-previously-treated-tb-cases
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-treatment-success-rate-previously-treated-tb-cases
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标治疗成功率:既往治疗的结核病例(TB_c_ret_tsr)在非洲国家的国家级观察数据,时间跨度为1995年至2023年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从世界卫生组织全球健康观察OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值都来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Treatment success rate: previously treated TB cases (TB_c_ret_tsr) across African nations, spanning 1995–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的ODAta API,聚焦于非洲地区既往治疗结核病病例的治疗成功率指标(TB_c_ret_tsr)。数据覆盖1995年至2023年间47个非洲国家,合计1044条观测记录。所有数值均取自精确浮点字段NumericValue,而非格式化显示字符串,并同时纳入置信区间上下界(value_low, value_high)以增强统计严谨性。原始数据经重新打包为Parquet格式文件,形成统一且可供机器学习直接调用的结构化数据集。
特点
数据集以国家-年份为基本单元,每一行对应单一维度下的特定观测值,且不含子维度分层,保证了指标的纯净性与一致性。列设计清晰规范,涵盖指示符代码、ISO国家代码、WHO区域、年份、数值估计、置信区间、显示字符串以及时间戳等关键字段。数据仅限WHO非洲区域(AFRO),便于地区专项分析与跨国产出比较。该集合归属于Electric Sheep Africa系列,专为非洲数据场景下的机器学习应用而优化。
使用方法
用户可通过HuggingFace datasets库直接加载该数据集,例如执行load_dataset("electricsheepafrica/africa-who-treatment-success-rate-previously-treated-tb-cases")。加载后的数据可转换为Pandas DataFrame,并利用dim1列进行性别或居住地类型等维度的筛选。推荐通过过滤dim1以_BTSX结尾或缺失值的方式保留全国总体的双侧数据,从而聚焦于国家层面的治疗成效分析。亦可通过country_iso3字段与年份列进行时序分析,如选取特定国家并按时间排序以观察其历史变化趋势。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2023年基于WHO全球卫生观察站(GHO)开放数据接口构建,聚焦非洲地区既往治疗结核病患者的治疗成功率(TB_c_ret_tsr),覆盖1995年至2023年间47个非洲国家的1044条观测记录。结核病是全球公共卫生的重大挑战,而非洲大陆因医疗资源不均、耐药菌株扩散等问题,其治疗监测尤为关键。该数据集通过统一格式化的Parquet文件,为机器学习模型提供结构化训练数据,旨在推动非洲医疗健康领域的智能化分析,助力WHO终结结核病战略的实施,在区域卫生政策制定与学术研究中具有重要参考价值。
当前挑战
核心挑战在于结核病治疗成功率受多重因素交织影响,包括患者依从性差、耐药结核病高发、HIV共感染及卫生系统薄弱等,使得模型需从有限的国家级指标中解析复杂的社会-生物医学耦合关系。构建过程中面临WHO原始数据时空不完整性问题(如部分国家早期年份缺失、置信区间数据不齐)、多维度分层(性别、城乡等)与聚合策略的权衡,以及非洲各国数据上报标准差异带来的偏差校正难题,这些均对数据清洗与模型迁移学习能力提出较高要求。
常用场景
经典使用场景
该数据集聚焦于世界卫生组织全球卫生观测站指标‘复治结核病例治疗成功率’在非洲47个国家1995至2023年间的观测值,为时间序列分析与跨国家比较研究提供了标准化、机器学习就绪的数据基础。经典使用方式涵盖复治结核治疗效果的纵向趋势分析、区域间疗效差异的量化评估,以及作为回归任务的目标变量或分类任务的标签,用以构建预测模型或探索影响治疗成功率的关键因素。
解决学术问题
在学术研究中,该数据集有效回应了非洲结核病防控领域长期存在的数据碎片化与可比性不足的困境。它使得研究者得以系统评估复治结核患者的治疗效果演变,揭示国家卫生政策、医疗资源配置与治疗成功率之间的潜在关联,为流行病学建模、卫生经济学评价及全球健康不平等议题提供了可靠的实证支撑,从而推动了循证干预策略的制定与优化。
衍生相关工作
该数据集的衍生相关工作包括基于时间序列的复治结核治疗成功率预测模型开发,例如利用长短期记忆网络或门控循环单元捕捉年度波动规律;也有研究将其与WHO其他结核病指标(如新发病例治疗成功率、耐药结核覆盖率)联合分析,构建多变量因果推断框架。此外,部分工作聚焦于数据缺失模式的处理与插补方法比较,为低资源地区的高质量统计建模奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



