five

electricsheepafrica/africa-who-the-number-of-people-with-susceptibility-test-result-for-tbrdstnum

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-the-number-of-people-with-susceptibility-test-result-for-tbrdstnum
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标“在细菌学确认的肺结核患者中,利福平敏感性测试结果的人数”(TB_rdst_num)在非洲国家层面的观测数据,时间跨度为2017年至2021年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为425行,区域筛选为WHO AFRO(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator "The number of people with susceptibility test result for rifampicin among bacteriologically confirmed pulmonary TB patients." (TB_rdst_num) across African nations, spanning 2017–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with a total of 425 rows, filtered by WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区经细菌学确诊的肺结核患者中接受利福平敏感性检测的人数指标(TB_rdst_num)。数据经过系统化抽取、清洗与重构,以Parquet格式统一存储,并采用一致的字段架构,所有数值均提取自精确浮点型字段NumericValue而非显示字符串。置信区间上下限一并纳入,便于后续统计推断与分析。
特点
数据集覆盖2017至2021年间47个非洲国家的425条观测记录,涵盖多种亚维度分层,如治疗史类别(新发与复治)。每条记录包含国家编码、年份、点估计值及其置信区间,并标注维度类型与取值,支持按性别、居住地等维度进行子集筛选与聚合分析。其结构紧凑、标注清晰,为机器学习与统计建模提供了高可用性的结构化数据源。
使用方法
使用者可通过HuggingFace Datasets库直接加载数据,调用load_dataset函数获取训练集并进行Pandas DataFrame转化。建议利用dim1字段过滤特定亚组(如仅保留BTSX标记的双性别人群数据),或按国家ISO3编码筛选单一国家的时间序列。数据集适用于分类与回归任务,可直接用于构建预测模型、趋势分析或区域卫生指标比较研究。
背景与挑战
背景概述
结核病(TB)作为全球公共卫生领域的重大威胁,其耐药性监测是遏制疫情扩散的核心环节。世界卫生组织(WHO)全球卫生观察站(GHO)于2021年发布了一项关键指标——'经细菌学确诊的肺结核患者中利福平药敏试验结果的人数'(TB_rdst_num),该系统由WHO主导构建,聚焦非洲地区47个国家在2017至2021年间的年度观测数据。该数据集以统一架构整合了国家层面的流行病学统计信息,涵盖利福平耐药性筛查的绝对人数及其置信区间,为耐药结核病(MDR-TB)的时空分布研究提供了标准化基础。作为Electric Sheep Africa项目的一部分,该数据填补了非洲区域结核病耐药性监测数据在机器学习领域的空白,推动基于证据的卫生政策制定与干预策略优化。
当前挑战
该数据集所解决的领域问题核心在于非洲结核病耐药性监测数据的不完备性——传统上,利福平药敏测试结果分散于各国卫生系统,缺乏跨国的可比性与结构化整合,阻碍了耐药性传播模型的构建与预警系统的开发。在构建过程中,挑战尤为突出:数据源(WHO GHO API)存在维度分层(如治疗史、性别、城乡类型),导致不同国家间数据记录粒度不一致,需通过统一模式处理缺失值与分组聚合;部分观测值仅提供显示字符串而非数值,需从非结构化字段中精确提取浮点数据;此外,非洲47国在2017–2021年间仅产生425条记录,样本量稀疏且时间序列不连续,对机器学习模型的泛化能力构成严峻考验。
常用场景
经典使用场景
在结核病监测与耐药性研究领域,该数据集被广泛用于分析非洲国家中经细菌学确诊的肺结核患者对利福平药物敏感性检测的人次数。研究者通常利用其列联结构,按国家、年份及治疗史亚组进行分层统计,以揭示区域内利福平耐药性的时空分布特征。其规范的数值型字段与置信区间边界信息,为构建预测模型或评估干预措施效果提供了基础数据支撑。
解决学术问题
该数据集有效解决了非洲结核病耐药性监测数据分散、格式不统一的核心难题。通过将世界卫生组织全球卫生观察站的官方指标整合为机器学习就绪的帕奎特文件,它使研究者能够系统追踪利福平敏感性检测覆盖率的年际变化及国家间差异。这为评估国家结核病控制规划中耐药性检测的普及程度、识别检测盲区,以及量化耐药性传播的流行病学负担提供了关键证据。其长期影响在于推动非洲地区循证结核病防控政策的制定与资源分配优化。
衍生相关工作
该数据集衍生出多项开创性工作,包括构建非洲结核病耐药性检测覆盖率的贝叶斯时空模型以填补数据稀疏地区的时间序列缺口。基于其亚组结构,学界开发出了面向治疗史分层的机器学习分类器,用于预测耐药性暴发风险。另有研究将其与世界银行或人口健康调查数据联动,在社会经济与营养状况背景下揭示检测可及性的不平等现象。这些工作共同推动了全球结核病监测方法学从描述性统计向预测性及因果推断范式的转型。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务