five

electricsheepafrica/africa-who-tuberculosis-new-and-relapse-cases-btotnewrel

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-tuberculosis-new-and-relapse-cases-btotnewrel
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标结核病-新发病例和复发病例(TB_tot_newrel)在非洲国家的国家级观察数据,时间跨度为1990年至2011年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Tuberculosis - new and relapse cases (TB_tot_newrel) across African nations, spanning 1990–2011. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区结核病新发与复发案例的统计指标(TB_tot_newrel)。数据以Parquet格式重新封装,采用统一的模式结构,确保机器学习的便捷性。所有数值均提取自高精度的浮点字段(NumericValue),而非显示字符串,并附有可信区间上下界(value_low, value_high)。数据涵盖1990年至2011年间47个非洲国家的观测记录,共计941行,每个国家与年份组合对应单一数值,无额外子维度分层。
使用方法
使用HuggingFace的datasets库加载数据尤为简便,仅需调用load_dataset函数,返回的DataFrame可直接用于分析。建议在预处理时过滤dim1列,提取仅包含'Both sexes'或缺失值的行以获取全国层面数据,或通过country_iso3列按国家筛选,结合sort_values按年份排序构造时间序列。数据集适用于结核病负担的预测建模、趋势分析或作为非洲健康指标研究的基准数据源。
背景与挑战
背景概述
结核病作为全球公共卫生领域的重大挑战,尤其在非洲地区因其高发病率和医疗资源匮乏而备受关注。世界卫生组织(WHO)全球卫生观察站(GHO)长期监测结核病新发与复发病例,为各国防控策略提供数据支撑。该数据集由Electric Sheep Africa在2011年之后整理发布,涵盖1990至2011年间47个非洲国家的年度观测数据,共计941条记录,聚焦于结核病新发与复发病例的统计数据。核心研究问题在于通过统一、机器学习就绪的格式,将WHO官方API中的碎片化数据进行标准化整合,为非洲区域结核病流行病学分析、趋势预测及干预效果评估提供基础资源。该数据集填补了非洲本地健康数据在机器学习领域的空白,推动了数据驱动型公共卫生决策在欠发达地区的应用,对全球健康不平等研究具有重要影响。
当前挑战
该数据集所解决的领域问题在于非洲结核病监测数据长期面临碎片化、格式不统一和获取门槛高的问题,阻碍了基于机器学习的大规模流行病学建模与趋势分析。构建过程中遇到的挑战尤为突出:首先,需要从WHO OData API提取原始数据,并处理其复杂的嵌套结构与不一致的字段命名,确保数值型变量(如NumericValue)的正确解析而非依赖易出错的显示字符串。其次,由于观测年份跨度22年且涉及47个国家,数据稀疏性与缺失值(如置信区间部分行缺失)问题显著,需设计鲁棒的缺失值处理策略。此外,不同国家数据更新时戳不一,需维护时间序列的连续性与可比性,同时保留子维度(如性别、城乡)的筛选能力,以支持精细化分析。最终需将异构数据转化为整齐的Parquet格式,并保持与原官方数据源的权限与许可兼容性。
常用场景
经典使用场景
在公共卫生与流行病学领域,非洲结核病新发和复发案例数据集作为WHO全球卫生观察站的重要组成部分,为研究非洲大陆结核病时空动态演变提供了关键数据支撑。研究者常利用该47个非洲国家1990至2011年间结核病例的年度观察值,构建时间序列分析模型,描绘结核病发病率的长期趋势,识别高负担国家与疫情拐点。该数据集亦广泛用于机器学习任务中的回归与分类基准测试,例如预测未来结核病例数量、评估地区间卫生干预措施成效,或作为监督学习框架下的目标变量进行特征工程探索。
解决学术问题
该数据集解决了非洲结核病流行病学研究中长期存在的数据碎片化与标准化缺失问题,提供了统一、可机器读取的跨国家-年份面板数据,使学者得以从区域宏观视角审视结核病传播规律。其所承载的置信区间信息(value_low与value_high)为不确定性量化研究奠定基础,推动统计推断在有限样本场景下的鲁棒性分析。通过填补非洲卫生统计数据的空白,该数据集助力揭示健康不平等现象,验证社会经济因素与传染病负担间的关联假设,对全球疾病负担模型校准与国际卫生政策评估具有深远学术意义。
实际应用
在实际应用层面,该数据集服务于非洲各国卫生部的疫情监测系统,辅助决策者根据历史病例趋势制定年度结核病控制计划与资源分配策略。非政府组织与国际机构(如WHO与全球基金)可将其嵌入疾病预警平台,识别疫情异常波动并优先部署医疗队。数据科学家与公共卫生工程师还利用这些结构化数据训练预测模型,为药物供应链管理、诊疗设施布局及社区健康宣教提供数据驱动方案,直接降低结核病在脆弱地区的死亡率与经济负担。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区结核病新发与复发案例的时空流行病学分析,依托世界卫生组织全球卫生观察站1990至2011年间覆盖47个非洲国家的官方统计,为机器学习驱动的公共卫生建模提供了高质量结构化数据。前沿研究方向包括利用该数据集训练时序预测模型,以剖析结核病负担在非洲大陆的变迁规律,并融合社会经济与环境协变量探究传播动态;同时,该数据与全球抗击结核病行动紧密相连,为追踪千年发展目标及后续可持续发展目标中结核病控制指标的进展提供了实证基础。其统一的Parquet格式与置信区间字段的保留,显著提升了多国横向比较与模型不确定性评估的可靠性,对优化非洲地区结核病干预策略及资源分配具有重要指导意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务