five

electricsheepafrica/africa-who-number-of-people-diagnosed-with-new-episode-of-pulmonary-tb-umnewrelep

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-number-of-people-diagnosed-with-new-episode-of-pulmonary-tb-umnewrelep
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2000年至2021年间,被诊断为肺结核新发作且同时患有肺外结核的患者数量的WHO GHO指标(TB_notif_num_newrel_ep)。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Number of people diagnosed with new episode of pulmonary TB who have extrapulmonary TB. (TB_notif_num_newrel_ep) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区诊断为新发肺结核病例中肺外结核患者的数量统计。原始数据经由Electric Sheep Africa团队重新封装,统一转换为Parquet格式并标准化了字段架构。数据覆盖2000年至2021年间47个非洲国家的观察记录,共计1023行,所有数值均提取自高精度浮点字段“NumericValue”,并保留置信区间上下限数据。当指标存在亚维度分层(如性别或年龄组)时,每个国家、年份与维度的唯一组合将生成独立的数据行,通过“dim1”和“dim2”字段标识不同分层。
特点
数据集的核心特征在于其高度结构化且即用性强的机器学习就绪特性。所有数据点均包含明确的指示代码、国家ISO3编码、年份及浮点数值,便于直接作为回归或分类任务的目标变量。尤其值得注意的是,数据集完整保留了置信区间信息,为不确定性建模提供了宝贵支撑。此外,通过统一的架构设计和区域过滤(WHO AFRO),该数据集在保证跨年份和跨国别可比性的同时,支持灵活的亚群分析,例如通过筛选“dim1”字段锁定全国总体数据或按性别、城乡区域进行细分研究。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,调用`load_dataset`函数即可获得训练集,并借助`to_pandas()`方法转换为Pandas DataFrame进行后续分析。典型的使用方式包括:通过筛选`dim1`字段中后缀为`_BTSX`的值或空值来获取全国总体数据,排除性别或区域分层;亦可通过`country_iso3`列过滤特定国家(如肯尼亚)并结合年份排序构建时间序列。该数据集设计兼容分类与回归任务,尤其适用于非洲结核病流行病学的机器学习建模与统计分析。
背景与挑战
背景概述
结核病(TB)作为全球公共卫生领域的重大挑战,尤其在非洲地区造成了沉重的疾病负担。世界卫生组织(WHO)全球卫生观察站(GHO)系统长期监测各国结核病疫情动态,其中肺结核新发病例中肺外结核的诊断数量是评估结核病防控质量与诊断能力的关键指标。该数据集由Electric Sheep Africa于2023年左右整理发布,基于WHO官方OData API,涵盖2000至2021年间47个非洲国家的1023条观测记录,以统一的Parquet格式呈现,旨在为机器学习研究提供结构化的非洲健康数据资源。其核心研究问题在于揭示非洲地区肺外结核诊断数量在时间与空间上的分布规律,分析诊断覆盖缺口,并为资源匮乏地区的结核病防控策略提供数据支撑。该数据集填补了非洲区域高质量、可机读结核病指标数据的空白,对推动全球健康不平等研究与人工智能驱动的传染病建模具有重要价值。
当前挑战
该数据集所解决的领域挑战在于:非洲肺结核新发病例中肺外结核的诊断率长期偏低,受限于诊断技术可及性、医疗基础设施薄弱以及数据报告一致性差,导致全球结核病负担评估存在显著偏差。具体而言,数据集构建过程面临多重困难:首先,WHO原始数据包含多种分层维度(如性别、城乡),每个国家-年份组合可能产生多行记录,需要精确过滤与聚合策略以避免重复计算或信息丢失;其次,部分年份和国家的缺失值(如置信区间缺失)需谨慎处理,防止引入估计偏差;此外,数据时间跨度长达22年,期间各国诊断标准与报告机制持续演变,直接拼接使用可能导致时序上不可比。因此,在模型应用中,需特别注意分层变量的正确筛选、缺失机制的识别以及时间依赖效应的建模,方能挖掘出可靠的流行病学洞见。
常用场景
经典使用场景
在结核病流行病学与公共卫生监测领域,该数据集的核心使用场景在于对非洲各国肺外结核新发病例的时空分布进行系统建模。研究者可借助其结构化的国家-年份观测记录,结合置信区间信息,开展纵向趋势分析或跨国家比较研究。数据集的标准化架构使其天然适用于机器学习流水线,支持回归任务中以确诊病例数为目标的预测建模,或分类任务中对高发病率区域的识别。此外,通过维1和维2字段的亚组分层功能,用户能够灵活筛选出按性别、地域等维度划分的特定子集,从而深入探究不同人群间的发病差异。
衍生相关工作
该数据集作为非洲健康数据统一仓库的开源组件,已催生了一系列围绕结核病监测与预测建模的衍生性研究。基于其结构化格式,研究者开发了面向非洲肺外结核发病率的时空插值与趋势分解算法,旨在消除监测体系中的报告延迟与数据缺失问题。同时,该数据集被集成入多层贝叶斯模型,用于量化社会经济与气候因素对肺外结核发现率的影响,推动了多源数据融合分析的方法论进展。此外,以该数据集为基准,相关工作探索了基于梯度提升与循环神经网络的发病率预测框架,验证了将WHO官方统计指标直接接入现代机器学习管道的可行性与有效性。这些衍生工作不仅拓展了原始数据的分析深度,也为非洲其他慢性传染病的智能监测研究提供了可复现的技术范式。
数据集最近研究
最新研究方向
在非洲公共卫生监测体系中,该数据集聚焦于肺外结核新发病例的通报数量,为结核病流行病学的前沿研究提供了关键数据支撑。伴随着全球遏制结核病战略的深入推进,世界卫生组织(WHO)强调通过精细化指标追踪结核病传播模式,而该数据集恰好填补了非洲区域肺外结核病例报告的空白,有助于揭示传统监测体系中容易被忽视的肺外结核负担。尤其在后疫情时代,结核病诊疗资源紧张与耐药性蔓延的叠加挑战下,研究者可借助其结构化的时空维度,结合社会经济与环境变量,构建机器学习模型以预测疫情热点、评估干预措施的有效性,并为“终止结核病”目标的实现提供数据驱动的政策依据。数据集的开源共享特性,亦促进了跨区域协作研究与透明化治理的生态建设。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务