five

electricsheepafrica/africa-who-incidence-of-tuberculosis-0000000020

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-incidence-of-tuberculosis-0000000020
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标结核病发病率(每10万人每年)(MDG_0000000020)在非洲国家的国家级观测数据,时间跨度为2000年至2024年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来自WHO全球健康观察OData API,并以Parquet文件形式重新打包,采用一致的架构。所有值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,包含置信区间边界(value_low, value_high)。数据集覆盖47个非洲国家,总行数为1,164行,区域筛选为WHO非洲区域(ParentLocationCode = AFR)。

This dataset contains country-level observations for the WHO GHO indicator Incidence of tuberculosis (per 100 000 population per year) (MDG_0000000020) across African nations, spanning 2000–2024. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 47 African nations with 1,164 total rows, filtered to WHO AFRO region (ParentLocationCode = AFR).
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区结核病发病率(每10万人口年发生率)这一关键公共卫生指标。数据经过系统性整合与清洗,从原始API中提取浮点精度的NumericValue字段作为核心数值,并包含置信区间上下界(value_low、value_high)以增强统计严谨性。所有观测值被统一封装为Parquet格式文件,采用一致的列式架构,覆盖47个非洲国家从2000年至2024年间的年度记录,共计1164行数据。数据集通过WHO AFRO区域代码(ParentLocationCode = 'AFR')进行地理筛选,确保了区域针对性,并由Electric Sheep Africa团队进行标准化处理,形成机器学习就绪的存储库。
使用方法
通过HuggingFace的datasets库,用户可借助load_dataset函数直接加载数据集,并将其转换为pandas DataFrame以便于处理。典型操作包括根据dim1字段筛选出全国层面(SEX_BTSX)或缺失性别的观测值,以聚焦于整体发病率分析。用户还可按国家ISO代码(如'KEN')过滤并依年份排序,构建特定国家的时间序列数据。数据集的无亚组分层特性(单值每国家年份组合)简化了聚合操作,而置信区间字段则可用于风险范围计算。建议在回归或分类任务中将value_numeric作为目标变量,同时利用indicator_code进行多指标扩展,适用于基于机器学习的结核病负担预测研究。
背景与挑战
背景概述
结核病作为全球重大公共卫生挑战之一,长期受到世界卫生组织(WHO)的密切监测。非洲大陆因脆弱的卫生系统和贫困问题,成为结核病负担最重的区域之一。在此背景下,Electric Sheep Africa团队于2024年发布了该数据集,旨在整合WHO全球卫生观察站(GHO)的官方数据,构建一个面向机器学习、结构统一的非洲结核病发病率数据集。该数据集覆盖2000至2024年间47个非洲国家的年度发病率指标(每10万人口),由WHO原始数据经规范化处理后以Parquet格式存储,为区域流行病学分析、时间序列预测及健康政策评估提供了高质量的数据基础。其发布显著推动了非洲公共卫生领域的数据驱动研究,成为连接全球健康监测与本地化人工智能应用的重要桥梁。
当前挑战
该数据集所解决的核心领域问题在于非洲结核病监测数据的碎片化与不可比性。不同国家采用不同的统计口径和报告周期,使得跨区域、长时序的整合分析极为困难,阻碍了机器学习模型在疾病负担预测与资源分配优化中的应用。在构建过程中,挑战主要源于数据源异构性与质量控制:WHO OData API返回的字段包含展示字符串与数值字段,需精确提取浮点精度主值并剔除显示字段干扰;此外,部分国家存在年度数据缺失、置信区间不完整以及子维度(如性别、城乡)分层复杂的问题,要求设计统一的过滤逻辑(如保留全国总体与两性合计数据)并处理缺失值,同时确保47个国家的时间序列在2000—2024年间保持一致的Schema对齐,最终形成可供直接使用的1,164条高质量观测记录。
常用场景
经典使用场景
该数据集聚焦于非洲国家结核病发病率(每十万人口年发病率)的时序观测,为流行病学与公共卫生领域提供了标准化的结构化数据。研究者可基于47个非洲国家2000至2024年的年度统计,开展时空趋势分析、区域比较研究以及疾病负担评估。数据集中包含的点估计值与置信区间,使其成为构建预测模型、验证疾病传播理论以及评估干预措施效果的理想基础资源。在分类与回归任务中,该数据集亦可用于探索社会经济、环境或政策因素与结核病发病率的潜在关联。
解决学术问题
该数据集有效填补了非洲大陆结核病长期、统一、可机读流行病学数据的空白,解决了因数据碎片化、格式不统一而阻碍大规模跨国家定量分析的难题。学术研究中,它助力揭示结核病发病的时间演化规律与空间异质性,支持评估联合国千年发展目标(MDG)在非洲的进展。通过提供置信区间,数据集提升了统计推断的可靠性,使研究者能够更严谨地检验干预措施的有效性并识别高风险区域。其影响在于推动了数据驱动的全球健康研究,为制定循证公共卫生政策提供了坚实的数据基础。
实际应用
在实际应用中,该数据集为非洲国家卫生部门与国际组织提供了量化结核病负担的工具,可用于监测疾病控制计划的成效、优化资源配置以及预警疫情反弹。公共卫生决策者能够利用年度发病率趋势评估国家结核病防治策略的长期效果,并识别需要重点干预的地理区域。此外,数据集支持开发基于机器学习的发病率预测系统,辅助提前部署医疗资源。在新冠疫情后全球结核病防控压力加大的背景下,此类标准化数据对于重新评估疾病进展并调整防控优先序具有重要实践价值。
数据集最近研究
最新研究方向
在全球公共卫生监测与可持续发展目标(SDGs)框架下,结核病发病率作为衡量健康进程的核心指标之一,其数据驱动的研究正迎来新范式。基于WHO全球卫生观察站(GHO)提供的非洲47国2000至2024年年度发病率面板数据,该数据集融合了置信区间估计与亚组分层维度,为前沿的时空流行病学建模和机器学习预测提供了高质量训练资源。近期研究聚焦于利用此类长时序、多国别的标准指标,结合因果推断与异构数据融合技术,以揭示非洲大陆在结核病防控中的异质性趋势,预警疫情反弹风险,并量化干预措施的真实世界效果,直接关联到WHO终结结核病战略的循证决策,对推动区域卫生资源公平分配具有深远意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务