electricsheepafrica/africa-who-confirmed-cases-of-mdr-tb
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-confirmed-cases-of-mdr-tb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2005年至2012年间WHO GHO指标多药耐药结核病确诊病例(TB_mdr)的国家级观察数据。它是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并被重新打包为Parquet文件,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator "Confirmed cases of MDR-TB" (`TB_mdr`) across African nations, spanning 2005–2012. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,经由Electric Sheep Africa项目重新整合与封装,形成了面向机器学习的标准化数据集。其构建过程聚焦于提取非洲地区46个国家在2005年至2012年间耐多药结核病(MDR-TB)确诊病例(指标代码TB_mdr)的年度观测值。数据以Parquet文件格式存储,采用统一的模式结构,核心数值取自GHO提供的浮点精度字段NumericValue,并保留了置信区间上下界(value_low与value_high)信息,从而确保了数据的高精度与可复现性。
使用方法
该数据集可通过HuggingFace的datasets库便捷加载,具体命令为`load_dataset('electricsheepafrica/africa-who-confirmed-cases-of-mdr-tb')`,返回的Dataset对象可轻松转换为Pandas DataFrame进行后续操作。用户可根据分析需求进行灵活筛选,例如通过`dim1`字段过滤出全国总人口(性别不限)的数据项,或依据`country_iso3`字段提取特定国家的时序数据(如肯尼亚的`KEN`)。数据既适用于监督学习中的回归与分类任务(以value_numeric为目标变量),也支持面向非洲结核病流行病学的时间序列分析与国际比较研究。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于世界卫生组织全球卫生观察站(WHO GHO)整理并发布,聚焦于2005年至2012年间非洲46个国家耐多药结核病(MDR-TB)确诊病例的监测数据。耐多药结核病作为全球公共卫生领域的重大威胁,其传播与治疗困境在资源有限的非洲地区尤为突出。该数据集以标准化格式呈现国家层面的年度观测值,旨在为机器学习驱动的流行病学建模、政策评估及干预措施优化提供可靠的数据基础,填补了非洲区域MDR-TB结构化开放数据的空白,对推动精准公共卫生决策具有深远意义。
当前挑战
数据集的构建面临多重挑战:首先,非洲地区MDR-TB诊断能力参差不齐,部分国家检测覆盖率低,可能导致观测值系统性低估,影响模型泛化性;其次,原始数据时间跨度有限(仅2005–2012年),且缺乏年龄、性别等关键分层信息,限制了对传播动态与高危人群的深入分析;此外,多源数据整合过程中,WHO API的字段一致性及缺失置信区间的处理(如部分国家无`value_low`/`value_high`值)对数据清洗与建模提出了额外要求,需谨慎应对稀疏性与异质性带来的偏差风险。
常用场景
经典使用场景
在公共卫生与流行病学领域,非洲耐多药结核病确诊病例数据集(africa-who-confirmed-cases-of-mdr-tb)被广泛用于构建时空趋势分析模型。研究者可借助该数据集,追踪2005至2012年间46个非洲国家耐多药结核病确诊数量的变化轨迹,评估不同国家在结核病防控中的阶段性成效,并挖掘地理分布上的聚集特征,为后续干预策略的制定提供量化依据。
解决学术问题
该数据集直接切入非洲结核病防控中耐多药病例监测数据匮乏的痛点,解决了因数据稀疏、标准不一而难以开展区域比较分析的学术困境。通过提供统一口径的年度国别确诊数值及置信区间,它使得研究者能够系统评估耐多药结核病的流行负担、揭示疫情扩散的高危时段与热点国家,进而推动非洲结核病流行病学从描述性统计向预测建模与政策评估的纵深发展。
实际应用
在实际应用中,该数据集可被卫生行政机构与跨国健康项目用于资源分配决策,例如指导抗结核二线药物的储备规划、定向强化高发地区的诊断能力建设。同时,其结构化表格格式便于集成至非洲健康监测仪表盘或机器学习预警系统,通过历史确诊数据训练回归与分类模型,前瞻性地识别病例激增信号,辅助公共卫生应急响应。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区耐多药结核病(MDR-TB)确诊病例的时空分布与趋势分析,为全球卫生领域的前沿研究提供了关键数据支撑。随着世界卫生组织(WHO)对结核病耐药性监测的持续强化,该数据集整合了2005至2012年间46个非洲国家的官方统计资料,揭示了MDR-TB在资源有限地区的流行病学动态。当前研究热点包括利用该数据集构建机器学习模型,以预测耐药结核病的爆发风险、评估干预措施的有效性,并结合气候与社会经济因素探索疾病传播的内在规律。此外,该数据集的开放共享属性(CC BY 4.0许可)推动了国际间合作,助力实现WHO终结结核病战略的阶段性目标,对非洲公共卫生政策制定与全球健康治理具有深远意义。
以上内容由遇见数据集搜集并总结生成



