electricsheepafrica/africa-who-incidence-of-tuberculosis-ctbhiv100k
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-incidence-of-tuberculosis-ctbhiv100k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家2000年至2023年间WHO GHO指标结核病发病率(每10万人口中HIV阳性病例)(`TB_e_inc_tbhiv_100k`)的国家级观测数据。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`、`value_high`)。
This dataset contains country-level observations for the WHO GHO indicator Incidence of tuberculosis (per 100 000 population) (HIV-positive cases) (`TB_e_inc_tbhiv_100k`) across African nations, spanning 2000–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
非洲地区结核病发病率(HIV阳性病例)数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa团队系统化整合后以Parquet格式重新封装,形成一套架构统一、便于机器学习应用的标准化数据资源。该数据集聚焦于非洲区域47个国家2000年至2023年间的时间序列观测值,共计1110条记录。每条观测记录均以NumericValue字段中的浮点数作为核心指标值,并附带了置信区间上下界(value_low与value_high),以保障统计推断的严谨性。数据采用一致的列结构进行组织,涵盖国家ISO代码、年份、WHO区域标识、指标代码及维度信息,确保了多国跨年数据的可比性与可操作性。
特点
本数据集具有鲜明的领域针对性与结构化优势:其一,指标明确聚焦于HIV阳性人群的结核病发病率(每10万人),服务于非洲地区双重传染病负担的精准量化;其二,时间跨度长达24年,覆盖47个非洲国家,具备丰富的地域与时效维度,可支撑纵向趋势分析与横向比较研究。此外,数据保留置信区间字段,为不确定性建模提供了依据;而维度字段(如dim1与dim2)虽在该指标中暂未使用分层结构,但框架留有扩展空间。整体而言,该数据集以简洁清晰的架构兼顾了科学研究的深度与机器学习工程的便利性。
使用方法
用户可通过HuggingFace datasets库便捷加载该数据集,命令为load_dataset("electricsheepafrica/africa-who-incidence-of-tuberculosis-ctbhiv100k"),加载后可直接转换为Pandas DataFrame以进行灵活的数据分析。针对特定研究需求,例如聚焦全国层面的两性数据,可依据dim1字段过滤以字符串'_BTSX'结尾的行或处理缺失值;如需分析单一国家的时间序列,则可通过country_iso3字段筛选相应ISO代码并依年份排序。该数据集的Parquet格式亦支持高效分块读取与内存优化,适宜融入完整的机器学习流水线中作为回归或分类任务的输入特征。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,经Electric Sheep Africa团队整理发布,聚焦于2000至2023年间非洲47个国家中HIV阳性人群的结核病发病率(每10万人口)。作为非洲健康数据统一化、机器学习就绪化存储库的一部分,它系统性地汇集了国家级观测结果,旨在为结核病与HIV共感染这一重大公共卫生议题提供标准化、高精度的数据支撑。数据集以Parquet格式呈现,保留了估计值及置信区间,极大便利了跨国时间序列分析与预测建模,对推动全球健康不平等研究及资源分配优化具有显著影响力。
当前挑战
该数据集面临的核心挑战在于:其一,结核病与HIV共感染率的准确估算受限于非洲多国薄弱的监测体系与诊疗报告缺口,点估计值可能存在系统性偏差;其二,构建过程中需应对WHO OData API多源异构数据融合难题,包括不同国家报告口径差异、缺失值处理以及置信区间不完整的问题。此外,数据仅涵盖国家级均值,缺失亚人群(如性别、城乡)的细化分层,限制了微观干预政策的制定。时空维度上的稀疏性(47国×24年共1110条记录)也对机器学习模型的泛化能力提出了额外考验。
常用场景
经典使用场景
在非洲公共卫生研究中,结核病与HIV共感染的流行病学分析一直是关键议题。该数据集提供了2000至2023年间47个非洲国家每十万人口中HIV阳性结核病发病率的权威观测值,为时空动态建模和疾病负担评估提供了标准化、可直接用于机器学习的结构化学术资源。研究者常将其作为监督学习任务中的回归目标变量,利用年份、国家等特征预测发病率趋势,或作为分类任务的基础,识别高发病率的区域与时间窗口,从而揭示结核病-HIV双重疫情在非洲大陆的演变规律。
实际应用
在实际应用中,公共卫生决策者与疾控机构可利用该数据集设计资源分配策略,例如基于各国历年发病率识别高风险区域,优化结核病筛查与HIV预防治疗的联动布局。非政府组织和国际卫生项目亦能借此数据评估干预成效,动态监测如“3HP”预防性治疗方案在特定国家的推进效果。此外,该数据集已被整合至机器学习驱动的预警系统中,辅助卫生部门提前研判疫情反弹迹象,提升有限医疗资源的利用效率。
衍生相关工作
该数据集催生了多项具有影响力的衍生研究,如基于面板回归模型探究气候、贫困指数与结核病发病率之间的关联;也有工作利用时间序列预测算法(如Prophet、LSTM)对各国短期发病率进行推估。在迁移学习领域,部分研究将其作为预训练源域,助力数据稀缺的撒哈拉以南非洲地区构建本地化疫情预测模型。此外,它常与WHO其他传染病或卫生系统指标数据集联合使用,形成多模态公共卫生分析框架,不断深化对非洲结核病流行背后社会决定因素的认知。
以上内容由遇见数据集搜集并总结生成



