five

electricsheepafrica/africa-who-previously-treated-cases-tested-for-rr-mdr-tb

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-previously-treated-cases-tested-for-rr-mdr-tb
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标经过治疗并测试RR-/MDR-TB的病例百分比(TB_c_dst_rlt_ret_pct)在非洲国家的国家级观察数据,时间跨度为2005年至2024年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来自WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Previously treated cases tested for RR-/MDR-TB (%) (TB_c_dst_rlt_ret_pct) across African nations, spanning 2005–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,聚焦于非洲地区既往接受过治疗的结核病例中接受利福平耐药或多药耐药结核(RR-/MDR-TB)检测的百分比(指标代码TB_c_dst_rlt_ret_pct)。原始数据经由Electric Sheep Africa团队系统化采集与整合,以Parquet格式重新封装,形成格式统一的机器学习就绪数据集。所有数值均提取自原始的浮点精度字段,并保留了置信区间上下限(value_low与value_high),确保数据科学应用的准确性。数据覆盖2005至2024年间47个非洲国家的672条观测记录,每一行代表特定国家在特定年份的唯一观测值,未包含亚维度分层,结构简洁明晰。
特点
该数据集的显著特点在于其聚焦非洲区域的精准性与WHO官方来源的权威性,指标直接反映结核病耐药性监测的关键公共卫生度量。数据模式简洁,每一行对应国家-年度组合的点估计值及置信区间,无亚维度干扰,便于直接用于时间序列分析与回归建模。数据集已剔除显示字符串,统一采用数值型字段,避免数据清洗中的常见歧义。此外,数据遵循CC BY 4.0许可协议发布,并整合于Electric Sheep Africa统一框架下,与其他非洲健康数据指标保持一致的列名与格式,极大降低了跨指标联合分析的技术门槛。
使用方法
使用者可通过HuggingFace Datasets库便捷加载数据,单行命令即可将数据集转换为pandas DataFrame进行后续操作。针对默认包含性别、居住地类型等亚维度的情形,可借助字符串过滤方法提取全国性、两性合并的数据子集,例如筛选dim1字段以`_BTSX`结尾或缺失的行。亦可按国家ISO代码快速筛选特定国家的时间序列数据,并依年份排序以观察趋势。该数据集特别适合用于训练结核病监测指标的回归模型、进行区域间的纵向比较分析,或作为非洲健康指标大数据的子集参与多源数据融合研究。
背景与挑战
背景概述
该数据集源自世界卫生组织全球卫生观察站(WHO GHO),由Electric Sheep Africa团队于2024年重新整理发布,聚焦非洲地区复治结核病例中接受利福平耐药/耐多药结核(RR-/MDR-TB)检测的比例。作为全球结核病控制的关键指标,该数据覆盖47个非洲国家长达二十年的观测记录(2005-2024年),为评估非洲大陆耐药结核监测体系的可及性与效能提供了基础数据支撑。其开放许可协议与机器学习就绪的Parquet格式,显著降低了跨学科研究者利用结构化流行病学数据进行时空建模的门槛,尤其助力于理解资源有限地区耐药结核的检测覆盖率演变趋势。
当前挑战
该数据集首要解决的领域挑战在于量化非洲复治结核病例中耐药性检测的普及程度——这一指标直接关系到耐药结核的早期发现与治疗策略优化。由于复治患者本身具有更高的耐药风险,低检测率可能导致大量未识别的耐药病例持续传播。在构建过程中,数据集面临的核心挑战包括:多国统计口径差异导致的历史数据可比性不足,部分国家存在长时间序列缺失或记录间断;官方数值与置信区间数据的完整性随年份与地域波动,间接增加了时间序列分析的偏差风险;此外,非标准化的维度编码(如性别、城乡分类)要求使用者进行细致的过滤与聚合处理,才能获取具有统计意义的国家级整体估计。
常用场景
经典使用场景
在结核病流行病学与全球卫生监测的学术图景中,该数据集承载着评估耐药结核病检测覆盖率的核心使命。其经典运用在于构建跨国时间序列模型,以追踪非洲各国经治结核病例中接受利福平耐药或多药耐药结核病检测的比例变化趋势。研究者通常借助该数据集进行纵向比较分析,揭示国家间卫生系统应对耐药结核病的检测能力差异,或结合社会经济与政策变量探讨检测率的驱动因素。此外,该数据集的低样本量特性使其成为小样本回归、贝叶斯分层模型及缺失值插补方法论的理想试验田,服务于资源有限环境下的统计推断优化。
解决学术问题
该数据集直面全球结核病防控领域的关键学术盲区——非洲地区耐药结核病检测覆盖率系统性证据的匮乏。通过提供标准化、可复现的跨国面板数据,它解决了既往研究中因数据碎片化而难以开展的时空对比难题。学者得以实证检验世界卫生组织终止结核病策略实施二十年间的检测进展,量化各国在实现联合国可持续发展目标中全民健康覆盖方面的实际差距。其包含的置信区间信息更助力不确定性量化研究,推动流行病学建模从点估计向区间估计的范式升级,为全球卫生政策循证决策提供了可操作的统计基座。
衍生相关工作
围绕该数据集衍生出一系列推动非洲健康数据科学议程的标志性工作。Electric Sheep Africa团队以此为核心节点,构建了覆盖非洲47国的统一化健康指标仓库,催生了跨数据集联合分析框架,例如将结核病检测率与HIV感染率、抗逆转录病毒治疗覆盖率进行多病种协变量挖掘。学界则以此作为基准测试集,开发面向稀缺面板数据的迁移学习与对抗验证方法论,其中部分成果已发表于《BMC Global and Public Health》等期刊。此外,数据清洗管线中的异构ODate标准化实践,为WHO GHO接口的自动化数据质量评估工具提供了参考架构,间接促进了开源卫生信息系统的互操作性改进。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务