five

electricsheepafrica/africa-who-new-cases-pulmonary-smear-unknownnot-done

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-new-cases-pulmonary-smear-unknownnot-done
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“新病例:肺部涂片未知/未完成”(TB_new_su)在非洲国家层面的观测数据,时间跨度为1995年至2012年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据仓库。数据直接从WHO GHO的OData API获取,并以Parquet格式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "New cases: pulmonary smear unknown/not done" (`TB_new_su`) across African nations, spanning 1995–2012. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区结核病新发病例中肺部涂片检查状态未知或未完成的指标(代码TB_new_su)。数据以Parquet格式重新打包,确保模式一致性,所有数值直接取自浮点精度的NumericValue字段,而非显示字符串。同时,数据集保留了置信区间上下界(value_low、value_high)信息,涵盖1995年至2012年间47个非洲国家的529条观测记录,并限定于WHO非洲区域(ParentLocationCode = 'AFR'),为机器学习任务提供了结构化、高质量的表格数据。
使用方法
数据加载可通过HuggingFace的datasets库便捷实现:使用load_dataset('electricsheepafrica/africa-who-new-cases-pulmonary-smear-unknownnot-done')获取,并转换为Pandas DataFrame进行后续处理。为聚焦于全国总体情况,建议通过过滤dim1字段中以'_BTSX'结尾或缺失的行来获取两性合并数据。此外,用户可根据国家ISO3代码(如'KEN')筛选特定国家的时间序列数据,并利用sort_values('year')进行时序分析,适用于回归或分类等机器学习任务。
背景与挑战
背景概述
结核病(TB)仍是全球公共卫生领域的重大挑战,尤其在非洲地区,因诊断资源有限导致大量病例的痰涂片检查状态不明或未完成,严重阻碍了疾病监测与防控策略的精准制定。由世界卫生组织(WHO)全球卫生观测站(GHO)于2012年发布的“africa-who-new-cases-pulmonary-smear-unknownnot-done”数据集,旨在系统性地记录1995至2012年间47个非洲国家中此类结核病例的年度数据。该数据集由Electric Sheep Africa团队基于WHO的OData API重新整理并整合至HuggingFace平台,采用统一高效的Parquet格式,提供了可用于机器学习建模的数值型指标及置信区间。作为非洲区域健康数据标准化与开放共享的重要实践,该数据集为结核病流行病学研究、政策评估及资源分配模型提供了基础数据支撑,推动了数据驱动的全球健康决策。
当前挑战
该数据集聚焦的领域核心挑战在于,痰涂片检查未完成或状态不明的结核病例代表了诊断流程中的关键缺口,不仅反映了非洲地区基层实验室能力不足、检测覆盖率低等系统性瓶颈,也使得基于完整诊断数据的疾病负担估算存在偏差,影响国际防治目标的精准追踪。在构建过程中,数据面临整合自不同国家与年份的异构来源带来的一致性问题,需要处理缺失值、统一编码规范,并筛选出数值型字段而非显示字符串以确保精度。此外,由于部分观测缺失置信区间,模型训练中的不确定性量化受到限制。数据量较小(仅529条记录)也增加了构建稳健预测模型的难度,易引发过拟合与泛化能力不足的问题。
常用场景
经典使用场景
在结核病流行病学研究中,该数据集常用于分析非洲国家肺结核涂片未知或未检测病例的时空分布特征。研究者可借助其跨1995至2012年的47国面板数据,构建固定效应或随机效应模型,评估病例报告不完整对疾病负担估算的影响,亦可结合气候、人口等协变量,揭示影响检测覆盖率的社会经济与环境因素。
解决学术问题
该数据集系统解决了非洲地区肺结核诊断质量评估中的核心数据缺失问题——即大量病例的涂片检测状态未知或未执行,导致真实发病率被低估。通过提供标准化的置信区间和多年连续记录,它为校正漏报偏差、优化疾病传播动力学模型提供了关键基准,显著提升了对区域结核病疫情趋势的预测精度。
实际应用
在实际应用中,该数据集被世界卫生组织和非洲各国卫生部门用于监测涂片检测的普及瓶颈,指导实验室能力建设和资源调配。公共卫生从业者利用其时间序列识别检测缺口最大的年份和国家,从而针对性推广分子诊断技术;非政府组织则基于这些数据设计低成本筛查策略,提高农村及偏远地区疑似病例的发现效率。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区肺结核新发病例中涂片检查状态未知或未完成病例的流行病学监测,为理解非洲大陆结核病诊断缺口与公共卫生体系薄弱环节提供了关键数据支持。结合WHO全球结核病报告强调的细菌学确诊不足问题,该前沿方向致力于利用机器学习和时间序列分析,探索涂片检查缺失与疾病传播动态、干预政策滞后之间的关联,例如通过量化1995-2012年间47个非洲国家的未诊断病例分布,评估检测能力不足对结核病控制目标的系统性影响,为优化资源匮乏区域的筛查策略和消除健康不平等提供实证依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务