five

electricsheepafrica/africa-who-new-cases-pulmonary-smear-negative

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-new-cases-pulmonary-smear-negative
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家1990年至2012年间世界卫生组织全球健康观察站(WHO GHO)指标新病例:肺涂片阴性(TB_new_sn)的国家级观察数据。数据集由Electric Sheep Africa整理,直接从WHO GHO OData API获取数据,并以Parquet文件格式重新打包,包含47个非洲国家的772行数据。数据包含数值估计值、置信区间边界(如可用)以及格式化显示字符串等信息。

This dataset contains country-level observations for the WHO GHO indicator New cases: pulmonary smear-negative (TB_new_sn) across African nations, spanning 1990–2012. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区涂阴肺结核新发病例(指标代码TB_new_sn)的流行病学监测数据。研究者通过程序化接口直接抽取了原始数值型字段(NumericValue),摒弃了易于引发歧义的显示字符串,并整合了置信区间上下限信息。所有数据以统一的Parquet格式重新封装,形成结构一致、机器友好(ML-ready)的存储框架,覆盖1990年至2012年间47个非洲国家的772条观测记录,隶属于Electric Sheep Africa项目体系。
特点
数据集的核心优势在于其高度规范化与跨域可比性。每一条记录均包含统一的指示符代码、ISO三位国家代码、WHO区域编码及精确年份,确保地理与时间维度的无缝对齐。数值字段直接提供浮点型点估计值及置信区间,便于直接作为监督学习的回归或分类目标。此外,分层维度字段(dim1、dim2)虽在此指标中多为空值,但设计上保留了按性别或居住地类型等进行子集筛选的弹性,支持多样化的流行病学分析视角。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,例如`load_dataset('electricsheepafrica/africa-who-new-cases-pulmonary-smear-negative')`,并利用`to_pandas()`方法转换为DataFrame进行后续操作。为获取全国性两性混合的总体数据,可筛选`dim1`列以`_BTSX`结尾或为空值;若需分析特定国家的长期趋势,则可按`country_iso3`字段过滤并依年份排序。数据集的简洁架构使其既适用于传统统计建模,也能无缝接入现代机器学习流水线。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于WHO全球卫生观察站(GHO)数据基础上整理发布,聚焦于1990至2012年间非洲47个国家的结核病新发病例中涂片阴性病例的统计指标(TB_new_sn)。结核病作为全球重大公共卫生挑战,尤其在撒哈拉以南非洲地区负担沉重,而涂片阴性病例因诊断难度大、易被漏报,成为疾病监测与防控的关键盲区。数据集的构建旨在为机器学习驱动的流行病学建模提供标准化、可复用的非洲健康数据资源,填补了区域级结核病亚型精细化分析的空白,有望推动基于数据驱动的公共卫生决策与疾病负担评估。
当前挑战
该领域面临的首要挑战在于涂片阴性结核病诊断技术的局限性,传统显微镜检查灵敏度不足,导致病例登记存在系统性偏差,影响模型对真实发病率的推断精度。数据集构建过程中,原始GHO数据存在多国报告周期不一致、置信区间缺失(部分年份仅有点估计值)以及维度拆分(如性别、城乡)导致的稀疏性问题,772条记录中不少国家-年份组合数据不连续,给时序回归和分类任务带来缺失值处理与样本不均的难题,需谨慎设计端到端的数据管道以维持统计可靠性。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集被广泛用于分析肺结核涂阴新发病例的时空分布特征。研究者常利用1990至2012年间47个非洲国家的年度观察值,构建时间序列模型以揭示结核病传播的长期趋势与季节性规律。数据中提供的点估计值与置信区间,使学者能够量化疫情波动的不确定性,为后续因果推断与干预措施评估奠定基础。
实际应用
在实际应用中,该数据集为非洲各国卫生部门的结核病防控决策提供了量化依据。公共卫生机构可据此识别高发年份与热点国家,优化筛查资源与抗结核药物的分配方案。同时,非政府组织利用其中的置信区间数据评估干预项目的有效性,例如追踪特定地区涂阳向涂阴转化率的变化,以调整社区健康宣教策略。
衍生相关工作
该数据集衍生出一系列聚焦非洲卫生数据建模与可视化的经典工作。研究团队基于其一致的时间跨度与地区覆盖,开发了结核病负担预测的机器学习基线模型,并在HuggingFace社区中作为标准化基准数据集被复用。此外,其被整合进Electric Sheep Africa统一数据集合中,催生了跨指标关联分析,如探索结核与新发HIV感染率的协同动态关系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作