five

electricsheepafrica/africa-who-estimated-number-of-mdrrr-tb-incident-cases

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimated-number-of-mdrrr-tb-incident-cases
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2015年至2024年间WHO GHO指标Estimated number of MDR/RR-TB incident cases(TB_e_inc_rr_num)的国家级观察数据。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator Estimated number of MDR/RR-TB incident cases (TB_e_inc_rr_num) across African nations, spanning 2015–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦非洲地区耐多药/利福平耐药结核病(MDR/RR-TB)的估算发病病例数。数据覆盖2015至2024年间46个非洲国家,以Parquet格式存储并统一化架构,确保机器学习就绪。数值精确取自浮点型字段NumericValue,并附置信区间上下限,而非显示字符串,提升了数据科学应用的严谨性。
使用方法
可通过HuggingFace datasets库直接加载为DataFrame对象,使用load_dataset函数获取训练集。典型用法包括过滤出全国范围、两性合并的数据(通过dim1字段的_BTSX后缀或空值识别),或按国家代码(如country_iso3='KEN')提取时间序列。数据适合用于回归预测、分类阈值设定或可解释性分析,支持直接输入机器学习管道。
背景与挑战
背景概述
在全球公共卫生领域,耐药结核病(MDR/RR-TB)的监测与防控一直是重大议题,尤其是在医疗资源相对匮乏的非洲地区。该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并经Electric Sheep Africa团队整理发布,旨在提供2015年至2024年间非洲46个国家MDR/RR-TB预估发病病例数的标准化、机器可读数据。核心研究问题聚焦于量化非洲大陆耐药结核病的疾病负担,以支持循证决策与流行病学建模。凭借其权威数据源、严谨的置信区间标注及统一架构,该数据集为传染病流行病学、全球健康不平等分析及机器学习驱动的预测模型提供了关键基础,显著提升了非洲区域健康数据的可及性与利用效率。
当前挑战
该数据集所解决的领域问题核心在于:MDR/RR-TB的精确估算面临诊断能力不足、报告系统不健全及数据缺失等结构性障碍,亟需一个整合官方统计与不确定性的标准化数值基准来支撑政策制定与资源分配。在构建过程中,挑战包括:一是从WHO OData API中提取并清洗千年尺度的跨国面板数据,确保字段一致性;二是处理非数值化或缺失的置信区间,并剔除原始显示字符串的格式干扰;三是将46个国家、十年跨度、无子维度分层的稀疏观测值(总计460行)转化为结构化的Parquet格式,同时保留国家与年份的唯一索引以支持时间序列分析。
常用场景
经典使用场景
在结核病流行病学研究中,该数据集被广泛用于构建非洲地区耐多药/利福平耐药结核病(MDR/RR-TB)年发病例数的时空分布模型。研究者可借助其覆盖2015至2024年、涵盖46个非洲国家的结构化面板数据,进行发病率趋势分析、国家间差异比较以及疫情热点识别。数据集中的点估计值与置信区间为概率建模提供了基础,支持贝叶斯时空统计、机器学习回归或分类任务,尤其适用于预测疾病负担与评估干预效果。
解决学术问题
该数据集填补了非洲MDR/RR-TB宏观流行病学数据在机器学习可获取性上的空白,解决了长期以来该区域耐药结核病负担数据零散、格式不统一且难以直接用于自动化建模的学术困境。研究人员得以量化非洲各国耐药结核病的时空演变规律,识别高负担国家,并利用置信区间评估估计的不确定性。其标准化Schema使跨国对比和纵向分析成为可能,推动了全球健康不平等定量研究及公共卫生政策的循证决策。
实际应用
在实际应用层面,该数据集支撑了世界卫生组织非洲区域办事处及各国结核病控制项目的资源分配与优先级排序。公共卫生机构可据此评估抗结核药物采购需求、规划诊断能力建设,并监测MDR/RR-TB防控目标的进展。在药物研发领域,数据为临床试验设计提供流行病学背景;在全球健康倡议中,它被用于监测可持续发展目标中结核病相关指标的完成情况,助力精准干预。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区耐多药/利福平耐药结核病(MDR/RR-TB)的估算病例数,是世卫组织全球卫生观察站(GHO)核心指标之一。当前前沿研究方向正围绕利用机器学习模型对结核病耐药性进行时空预测,尤其关注非洲区域高负担国家的疾病流行趋势与医疗资源分布不均问题。结合全球终止结核病策略及近期WHO发布的耐药结核病治疗指南更新,该数据集在优化公共卫生干预政策、评估疾病控制成效及推动AI辅助流行病学建模方面具有关键意义,为跨学科合作提供了可靠的数据基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务