electricsheepafrica/africa-who-confirmed-cases-of-rr-mdr-tb
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-confirmed-cases-of-rr-mdr-tb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2005年至2024年间WHO GHO指标Confirmed cases of RR-/MDR-TB(TB_rr_mdr)的国家级观察数据。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low、value_high)。数据集覆盖了47个非洲国家,共793行数据。
This dataset contains country-level observations for the WHO GHO indicator Confirmed cases of RR-/MDR-TB (TB_rr_mdr) across African nations, spanning 2005–2024. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 793 rows.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经过系统性采集与规范化处理后,以Parquet格式重新封装,形成具备一致化架构的机器学习就绪型数据集。该数据集聚焦非洲区域,依据WHO AFRO区域代码('AFR')进行地理筛选,覆盖了47个非洲国家从2005年至2024年间关于利福平耐药/耐多药结核病(RR-/MDR-TB)确诊病例的年度观测数据,共计793条记录。所有数值均精确提取自API返回的'NumericValue'字段,而非显示字符串,并同时保留了可用置信区间上下界,以保障数据精度与分析可靠性。
特点
该数据集的核心特色在于其结构简洁而信息完备,每个国家与年份的组合仅对应单一数值,无额外分层维度,便于直接用于时间序列分析或回归建模。数据集提供了标准化的属性字段,包括国家ISO3代码、WHO区域、观测年份、数值点估计及其置信区间,同时保留了原始显示字符串以供参考。此外,数据集还兼容了WHO GHO的潜在分层结构(如性别、居住地类型),通过'dim1'与'dim2'字段可灵活筛选特定子群体,且支持多国跨年度的纵向比较,为研究非洲地区结核病耐药性趋势提供了洁净、统一的量化基础。
使用方法
使用该数据集时,可借助HuggingFace的'datasets'库直接加载,通过一行代码即可将数据转化为Pandas DataFrame格式进行后续分析。针对不同研究需求,用户可通过条件筛选快速提取特定子集:例如,利用'dim1'字段过滤出'Both-sexes'(两性综合)及国家级别的数据,以排除性别或地域分层带来的干扰;或通过'country_iso3'字段与'year'排序,生成单一国家的连续时间序列。数据集结构紧凑且字段含义清晰,适合直接应用于机器学习分类或回归任务中的标签构建与特征工程,也支持与其它WHO GHO指标数据集进行横向合并与联合分析。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于2024年整理发布,源自世界卫生组织全球卫生观测站(WHO GHO)的官方数据,聚焦非洲47个国家在2005至2024年间经确诊的利福平耐药/耐多药结核病(RR-/MDR-TB)病例。结核病作为全球性重大公共卫生威胁,耐药结核病的监测与防控一直是国际社会关注的核心议题。该数据集通过标准化、机器学习友好的格式(Parquet文件)整合了WHO官方API中的数值型字段及置信区间信息,为非洲区域耐药结核病的时间序列分析、地理分布建模及政策评估提供了可靠的数据基础。其开源许可(CC BY 4.0)和一致性架构降低了跨国别健康数据的使用门槛,对推动非洲公共卫生领域的数据驱动研究具有重要示范意义。
当前挑战
数据集面临的挑战涵盖多个层面。在领域问题方面,RR-/MDR-TB的精确估算长期受制于诊断能力不足、报告系统不完善及患者失访等因素,尤其是非洲许多国家缺乏系统性耐药监测网络,导致现有病例数可能严重低估真实负担。在数据集构建过程中,原始WHO API返回的数据需经过清洗、缺失值处理及多重维度(如性别、居住区域)的归一化与重编码,部分观测的置信区间缺失限制了不确定性建模的深度。此外,国家间统计口径差异与时间序列的非连续性对跨区域比较和预测模型的鲁棒性构成考验。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集最经典的应用场景在于对非洲各国利福平耐药结核病(RR-TB)与耐多药结核病(MDR-TB)确诊病例数的长时序建模与分析。研究者可借助其覆盖2005至2024年的47国面板数据结构,构建时间序列回归或空间流行病学模型,以揭示耐药结核病在非洲大陆的演变态势与地理分布格局。数据集中包含的点估计值与置信区间范围,为开展稳健的统计推断与不确定性量化提供了关键支撑。
解决学术问题
该数据集有效解决了非洲地区因数据分散、标准不一而长期存在的耐药结核病流行病学量化困境。首先,它整合了世界卫生组织全球卫生观察站(WHO GHO)的官方统计指标,为研究者提供了一致且可复现的跨国产出数据基础。其次,通过提供逐年、按国家细化的确诊病例数,使得针对耐药结核病负担的动态演变趋势、药物治疗干预效果评估以及疫情预测预警等学术问题得以深入探讨,填补了非洲区域宏观耐药监测数据的结构性空白。
衍生相关工作
该数据集衍生出的经典工作主要集中在跨国比较与机器学习预测两大方向。研究者已基于此数据构建了对比东非与西非、南共体与萨赫勒地区的耐药结核病负担异质性分析框架。同时,得益于其整洁的表格结构与时间序列维度,该数据常被用于训练预测模型(如梯度提升树、LSTM网络),以基于历史数据预测未来特定国家的RR-/MDR-TB通报数,进而衍生出与气候变化、医疗卫生支出、社会治理指数等协变量联动的多模态因果推断研究。
以上内容由遇见数据集搜集并总结生成



