five

electricsheepafrica/africa-who-treatment-success-rate-xdr-tb-cases

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-treatment-success-rate-xdr-tb-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2008-2022年间世界卫生组织全球健康观察站(WHO GHO)指标XDR-TB病例治疗成功率(TB_c_xdr_tsr)的国家级观察数据。它是Electric Sheep Africa项目的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,采用一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。数据集覆盖31个非洲国家,共175行数据,每行包含国家代码、年份、数值估计值、置信区间等信息。

This dataset contains country-level observations for the WHO GHO indicator Treatment success rate: XDR-TB cases (TB_c_xdr_tsr) across African nations, spanning 2008–2022. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 31 African nations with 175 total rows, each containing country code, year, numeric estimate, confidence intervals, and other information.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
结核病作为全球公共卫生领域的重大挑战,其治疗成功率是评估防控成效的核心指标。该数据集聚焦于非洲地区广泛耐药结核病(XDR-TB)的治疗成功率,数据来源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa团队系统化整理后,以Parquet文件格式封装,并统一了数据模式。数据提取时优先采用浮点精度的NumericValue字段而非显示字符串,同时完整保留了置信区间上下限(value_low与value_high),确保数值的精确性与可复用性。所有观测值按国家、年份组织,覆盖2008年至2022年间31个非洲国家的175条记录,仅包含WHO非洲区域(ParentLocationCode = 'AFR')的数据,无额外维度分层。
特点
该数据集具有鲜明的结构化与聚焦性特质。首先,它专精于单一指标——XDR-TB治疗成功率,排除了性别、年龄或居住地等子维度分层,每条记录对应特定国家与年份的唯一观测值,降低了多维度分析的复杂性。其次,数据经过严格的质量控制,通过ISO 3166-1 alpha-3国家代码、WHO区域标识及时间戳的规范化设计,确保跨数据集的兼容性与可追溯性。此外,置信区间字段的保留为不确定性量化提供了基础,使得模型训练或统计推断能够更稳健地估计治疗效果的波动范围。整体上,该数据集规模精简(n<1K),专为非洲区域的结核病流行病学分析与机器学习建模而优化。
使用方法
该数据集可直接通过HuggingFace的datasets库便捷加载与使用。用户只需调用load_dataset函数,即可将数据转化为Pandas DataFrame格式,便于进行后续的数据清洗、探索性分析或模型训练。针对具体的科研需求,可通过筛选dim1字段值来提取全性别(Both-sexes,即_BTSX后缀)或全国层面的数据,从而聚焦于无分层干扰的核心指标。对于时间序列分析,可依据country_iso3列定位特定国家(如KEN表示肯尼亚),并结合年份字段进行排序,以观察治疗成功率随时间的演变趋势。此外,数据集的Parquet格式天然支持高效压缩与快速读取,适合在计算资源有限的环境下进行迭代式研究。
背景与挑战
背景概述
广泛耐药结核病(XDR-TB)作为全球公共卫生领域的重大威胁,其治疗成功率是衡量防控成效的关键指标。世界卫生组织全球卫生观察站(WHO GHO)长期追踪该指标,但非洲地区由于数据分散、格式不一,制约了区域层面的机器学习建模与政策分析。为弥合这一鸿沟,Electric Sheep Africa团队于近年整合了WHO官方OData API中2008至2022年间31个非洲国家的XDR-TB治疗成功率数据,构建了首个面向机器学习的统一数据集。该数据集聚焦于非洲区域(WHO AFRO),以标准化Parquet格式提供了175条观测记录,涵盖点估计值及置信区间,为耐药结核病流行病学建模、卫生政策评估及区域健康不平等研究提供了宝贵的结构化数据资源,对推动非洲结核病精准防控具有奠基性意义。
当前挑战
该数据集所面临的挑战根植于XDR-TB治疗成功率这一领域问题的复杂性:数据稀疏性极为突出,非洲地区XDR-TB病例数有限,导致175条观测中大量国家-年份组合存在缺失,且上下置信区间仅部分可用,给时序预测与分层建模带来严峻考验。在构建过程中,从WHO OData API自动抓取的非结构化数据需经严格清洗与对齐,包括将字符串型显示值(value_display)与浮点型数值(value_numeric)的转换、多维度(性别、城乡类型)过滤逻辑的标准化,以及跨版本数据的时间一致性维护。此外,小样本量下模型泛化能力不足与区域性异质性(如检测能力差异)的量化处理,亦是后续数据分析绕不开的技术壁垒。
常用场景
经典使用场景
该数据集聚焦于非洲地区广泛耐药结核病(XDR-TB)治疗成功率这一关键健康指标,横跨2008至2022年的时间维度,覆盖31个非洲国家。其经典使用场景在于构建时间序列预测模型与分类模型,以系统评估区域结核病控制成效。研究者可借助该数据集追踪各国治疗成功率的变化轨迹,识别成功率显著偏低或波动剧烈的国家与时段,从而为后续干预策略的制定提供量化依据。数据集以机器可读的Parquet格式交付,并附有置信区间,便于直接融入端到端的机器学习流水线。
实际应用
在实际应用中,该数据集为世界卫生组织及各国公共卫生部门提供了监控与评估XDR-TB治疗项目的坚实数据基础。通过将治疗成功率与其他流行病学指标进行关联分析,决策者能够精准定位治疗成效欠佳的区域并调配资源;同时,治疗成功率的年度变化可辅助评估现行治疗方案的有效性,推动治疗指南的实时优化。此外,该数据集的发布降低了非洲健康数据的获取门槛,使非政府组织与学术机构能够快速开展区域对比分析,从而提升卫生干预措施的科学性与时效性。
衍生相关工作
围绕该数据集衍生出多项重要的学术探索方向,包括基于时间序列模型(如ARIMA、LSTM)对非洲各国XDR-TB治疗成功率进行短期预测,以及利用结构化分类模型识别成功率变化的突变点。部分研究将其与WHO框架内的其他宏微观指标(如DOTS策略覆盖率、抗结核药物耐药率)进行联合建模,探索多因素协同机制。此外,该数据集还被用于评估不同统计填充策略对稀疏面板数据模型性能的影响,催生了一系列关于非洲健康数据缺失值处理的方法论创新,提升了数据驱动决策的可靠性。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务