five

electricsheepafrica/africa-who-new-cases-tested-for-rr-mdr-tb

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-new-cases-tested-for-rr-mdr-tb
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2005年至2024年间,针对RR-/MDR-TB(耐药性结核病)新病例检测的百分比数据。数据来源于WHO Global Health Observatory,并以Parquet文件格式重新打包,包含数值估计、置信区间等信息。数据集覆盖47个非洲国家,共计684行数据。

This dataset contains country-level observations for the WHO GHO indicator New cases tested for RR-/MDR-TB (%) across African nations, spanning 2005–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
在非洲区域结核病防控形势依然严峻的背景下,该数据集聚焦于世界卫生组织全球卫生观察站(WHO GHO)的核心指标——新发病例进行耐药结核病(RR-/MDR-TB)检测的百分比(TB_c_dst_rlt_new_pct)。数据通过调用WHO OData API直接获取原始观测值,并统一转换为Parquet格式存储,所有数值均采用高精度的浮点型字段NumericValue,而非可视化展示字符串。此外,数据集中保留了置信区间的上下界信息(value_low, value_high),以便于后续的统计推断与不确定性分析。整体上,该数据集覆盖了2005至2024年间47个非洲国家的684条国家-年度记录,构成了一个高质量、结构化、便于机器学习的时序面板数据。
特点
该数据集的核心优势在于其严格的区域聚焦与精准的指标定义:所有观测值均限定为WHO非洲区域(ParentLocationCode='AFR')的成员国数据,确保了地理维度上的完整一致。数据结构简洁而富有信息量,包含国家代码、年份、点估计值及置信区间等关键字段,且支持通过dim1与dim2进行亚群分层分析(如按性别或城乡划分)。值得注意的是,本数据集不包含任何子维度细分,每条记录唯一对应一个特定国家与年份的组合,这大幅简化了时间序列建模与跨国比较的复杂度。同时,数据以Parquet格式发布,兼具极高的压缩比与高效的列式查询性能。
使用方法
用户可通过HuggingFace的datasets库便捷地加载数据,代码仅需一行load_dataset调用,即可将完整数据集转换为Pandas DataFrame进行深度分析。针对最常用的全国性无性别分层分析场景,建议通过筛选dim1字段以'BTSX'结尾或为空值的行来获取男女合计指标。在构建具体国家的结核病检测趋势模型时,可按国家ISO代码(country_iso3)进行过滤,并依据年份(year)字段排序以形成时间序列。此外,数据集附带了机器学习友好的预定义结构,value_numeric列天然可作为回归任务的预测目标,而value_low与value_high则支持区间预测或不确定性建模。
背景与挑战
背景概述
结核病(TB)作为全球公共卫生领域的重大挑战,其耐药性菌株(RR-/MDR-TB)的出现与传播对疫情控制构成了严峻威胁。世界卫生组织(WHO)全球卫生观察站(GHO)长期追踪各成员国结核病诊疗关键指标,其中“新发病例接受RR-/MDR-TB检测比例”(TB_c_dst_rlt_new_pct)是评估耐药结核病监测能力与诊断可及性的核心参数。Electric Sheep Africa研究团队于2024年基于WHO官方OData API,系统提取并重构了2005–2024年间覆盖47个非洲国家的该指标数据,形成了首个面向机器学习的非洲耐药结核检测率标准化数据集。该数据集通过统一模式整合置信区间与国家层级观测值,为区域卫生政策制定、疫情时空建模及医疗资源分配提供了高质量的数据基础,尤其推动了撒哈拉以南非洲这一高负担区域的循证决策进程。
当前挑战
当前该数据集所应对的核心领域挑战在于非洲地区耐药结核病的检测率普遍低下且时空差异显著,这直接削弱了全球结核病控制战略的效果评估与干预优先级排序。构建过程中面临多重困难:首先,WHO原始数据中存在大量缺失值与置信区间不完整状况,尤其在政治动荡或医疗基础设施薄弱的地区(如萨赫勒地带),指标记录连续性差;其次,不同国家间的报告周期、诊断标准与数据采集规范存在异构性,导致跨国家可比性需经严格清洗与归一化处理;此外,作为单一指标数据集,其年份跨度(2005–2024)内变量维度有限(无性别与居住地亚组),限制了多层次归因分析与混杂因素控制,对建模精度的提升构成内在约束。
常用场景
经典使用场景
该数据集聚焦于非洲地区新确诊结核病例中耐利福平或多药耐药结核(RR-/MDR-TB)检测比例这一关键公共卫生指标,覆盖47个非洲国家长达二十年的时序观测数据。其经典使用场景在于构建跨国家、跨年度的纵向分析模型,用于追踪非洲大陆耐药结核检测覆盖率的演变趋势,评估国家间检测能力的差异,或作为面板数据输入,与经济发展水平、医疗资源配置等社会经济变量进行关联分析,揭示影响耐药结核检测率的结构性因素。
实际应用
在实际应用层面,该数据集可助力公共卫生机构与政策制定者实现数据驱动的决策支持,例如开发预警系统以识别检测率异常的年份或国家,辅助规划耐药结核筛查项目的优先级排序。同时,它可作为机器学习模型中的目标变量,用于训练预测模型,推断检测率在资源有限环境下的潜在影响因素,从而在缺乏最新调查数据的区域进行合理外推,指导国际卫生组织与非洲各国卫生部的监测工作与资金分配。
衍生相关工作
围绕该数据集已衍生出一系列具有重要影响力的相关工作:其一是基于该面板数据开发的耐药结核检测率预测模型,结合气候、冲突、人均卫生支出等协变量,实现了对检测缺口的时空推断;其二是利用该数据验证了世界卫生组织‘终止结核病策略’在非洲各国实施中的达标情况,并量化了因检测不足导致的耐药病例漏报规模;此外,该数据还作为核心输入之一,构建了非洲多病共防的预警指标体系,将结核耐药性监测与HIV、疟疾等传染病监测网络进行联动分析。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务