five

electricsheepafrica/africa-who-laboratories-providing-tuberculosis-diagnostic-services-bclabcul5m

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-laboratories-providing-tuberculosis-diagnostic-services-bclabcul5m
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标使用培养法提供结核病诊断服务的实验室(每500万人口)(TB_c_lab_cul_5m)在非洲国家的国家级观测数据,时间跨度为2005年至2014年。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Laboratories providing tuberculosis diagnostic services using culture (per 5 million population) (TB_c_lab_cul_5m) across African nations, spanning 2005–2014. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区每500万人口中提供结核病培养诊断服务的实验室数量(指标代码TB_c_lab_cul_5m)。数据经Electric Sheep Africa项目统一整合与清洗后,以Parquet格式重新封装,形成具有一致列式结构的机器学习就绪数据集。构建过程中,所有数值均直接取自API返回的浮点精度字段NumericValue,并保留了置信区间上下限(value_low与value_high),确保数据精度与统计可靠性。数据集覆盖2005至2014年间47个非洲国家,共计400条观测记录,地域范围限定为WHO非洲区域(ParentLocationCode = 'AFR')。
特点
该数据集的核心特点在于其高度结构化的列式架构与领域针对性。每条记录包含国家ISO代码、年份、数值估计及置信区间等关键字段,并预留了维度分层变量(dim1/dim2),便于按性别、居住地类型等亚组进行筛选或聚合分析。由于该指标本身无子维度分层,数据集默认以单一值呈现每个国家-年份组合,降低了数据冗余与解析复杂度。此外,数据集采用CC BY 4.0许可协议,保证了开放获取与合规使用,其统一化架构也便于横向对比不同非洲国家间的结核病诊断服务能力。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,示例命令为load_dataset('electricsheepafrica/africa-who-laboratories-providing-tuberculosis-diagnostic-services-bclabcul5m'),并利用to_pandas()方法将数据转换为Pandas DataFrame以进行后续分析。推荐在首次使用时对dim1字段进行过滤,筛选以'_BTSX'结尾或为空的行,以获得仅包含两国别总体(不分性别)的全国层级数据。若需研究特定国家的时间趋势,可针对country_iso3字段进行筛选并按照年份排序,从而有效追踪该国结核病培养诊断实验室密度随时间的演变轨迹。
背景与挑战
背景概述
结核病作为全球重大的公共卫生负担,尤其在非洲地区尤为严峻,准确的诊断服务是有效防控的关键环节。由世界卫生组织全球卫生观察站(WHO GHO)创建并于2014年发布的“非洲地区每500万人口提供结核病培养诊断服务的实验室数量”数据集,是评估区域诊断能力的重要资源。该数据集由Electric Sheep Africa团队重新整理,覆盖2005至2014年间47个非洲国家的年度观测数据,共计400条记录,聚焦于通过培养法进行结核病诊断的实验室密度。这一指标直接反映了各国在结核病实验室基础设施方面的投入水平,为流行病学研究、资源配置及政策制定提供了量化基准,对推动非洲结核病防控工作具有深远影响。
当前挑战
该数据集面临的核心挑战在于其反映的领域问题——结核病培养诊断服务的可及性严重不足。在非洲,许多地区缺乏符合标准的培养实验室,导致病例漏诊和延迟治疗,这是制约结核病控制成效的关键瓶颈。同时,数据集构建过程也面临诸多困难:原始WHO数据可能存在报告不一致或缺失,尤其对于资源匮乏国家,年度数据的连续性难以保证;指标“每500万人口”的标准化处理虽便于比较,但忽视了人口分布不均和城乡差异,可能掩盖局部地区的极端不足。此外,数据时间跨度终止于2014年,陈旧性限制了其反映当前疫情态势和近期诊断能力变化的有效性,对实时政策制定构成挑战。
常用场景
经典使用场景
该数据集收录了2005年至2014年间47个非洲国家每500万人口中提供结核病培养诊断服务的实验室数量,是一个面向时空分析与健康系统评估的经典指标集。在传染病流行病学与全球健康治理交叉领域,研究者常借助该数据对非洲各国的结核病诊断能力进行跨国比较、趋势追踪与区域差异剖析。通过将数值型指标与时间、国家维度结合,该数据集的多变量表格结构天然适配于回归分析、异常检测与聚类模型,从而服务于对诊断基础设施分布规律的系统性量化研究。
衍生相关工作
尽管该数据集尚属较新的标准化整理版本,但其上游的WHO全球健康观测站数据已在国际健康政策研究中频繁现身,催生了大量围绕结核病诊断可及性、卫生系统韧性与疾病监测体系优化的学术成果。该数据集进一步被纳入Electric Sheep Africa统一语料库后,与同类非洲健康指标集形成了可迁移学习与跨指标联合推断的数据基础。已有研究开始尝试将其作为多国面板回归、空间自相关分析与深度学习时序预测模型的实验基底,为构建端到端的非洲健康诊断智能体提供了关键支撑。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区每500万人口中提供结核病诊断服务的培养实验室数量,是WHO全球卫生观察站(GHO)指标在区域健康监测中的典型应用。当前前沿研究方向包括利用该数据构建时空预测模型,评估非洲结核病诊断基础设施的演变趋势,并结合社会经济与环境变量分析资源分配不均问题。该数据集与WHO终结结核病战略紧密相关,尤其关注2014年后的进展缺口,为填补非洲诊断能力数据空白、推动基于证据的卫生政策制定提供了关键支撑,对实现全球健康公平具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务