electricsheepafrica/africa-who-total-ncd-deaths
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-total-ncd-deaths
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标总非传染性疾病死亡人数(NCD_DTH_TOT)在非洲国家的国家级观察数据,时间跨度为2000年至2021年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO GHO OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。
This dataset contains country-level observations for the WHO GHO indicator Total NCD Deaths (NCD_DTH_TOT) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区非传染性疾病(NCD)死亡总数(指标代码NCD_DTH_TOT)。数据经过系统化采集与再包装,以Parquet格式存储,并统一采用NumericValue字段作为浮点数精度的核心观测值。覆盖2000年至2021年间47个非洲国家的3102条记录,每条观测均包含国家、年份、数值及可用的置信区间边界。数据集通过WHO AFRO区域代码进行过滤,确保区域聚焦性,并纳入性别等子维度分层信息,使得国家与年份的组合可因维度差异而产生多条观测,便于多维度分析。
特点
数据集以结构化表格形式呈现,具备清晰且一致的模式设计,涵盖indicator_code、country_iso3、year、value_numeric等关键字段,并低耦合地包含了value_low与value_high置信区间,为不确定性量化提供支持。其突出特点在于分层维度的明确标识,通过dim1_type、dim1、dim2_type、dim2等字段记录性别、居住区域等细分维度,允许研究者灵活筛选或聚合各层级数据。数据规模适中(1K至10K),既保障了统计分析的可行性,又避免了冗余信息,非常适合机器学习任务中的回归与分类应用。
使用方法
用户可通过HuggingFace的datasets库轻松加载数据集,调用load_dataset('electricsheepafrica/africa-who-total-ncd-deaths')即可获取训练集并转换为Pandas DataFrame进行后续操作。典型使用方法包括筛选特定维度数据,例如过滤dim1字段以仅保留全国性数据或两性合并观测,亦可通过country_iso3字段快速提取特定国家的时间序列。数据集天然适用于监督学习场景,value_numeric列可作为回归任务的目标变量,而分类任务则可借助维度信息构建标签。研究者也可利用置信区间字段评估模型预测的不确定性,从而深化对非洲非传染性疾病负担的定量理解。
背景与挑战
背景概述
在非传染性疾病(NCDs)日益成为非洲地区主要死亡威胁的背景下,精确的流行病学数据对于政策制定和医疗干预至关重要。该数据集由Electric Sheep Africa团队于2023年基于世界卫生组织(WHO)全球卫生观察站(GHO)数据构建,核心研究问题聚焦于非洲47个国家2000至2021年间非传染性疾病总死亡人数的时空分布与人口分层特征。通过整合WHO官方API并统一为机器学习友好的Parquet格式,它填补了非洲区域在标准化、可复现的NCDs死亡数据方面的空白,为全球健康研究提供了高分辨率的基础数据资产。
当前挑战
该数据集所解决的领域挑战在于非洲地区长期存在的健康数据碎片化与不完整性问题,尤其是非传染性疾病监测中各国报告标准不一、时间序列断裂以及性别、城乡层面数据稀疏的困境。构建过程中则面临多维挑战:从WHO的OData接口提取数据时需处理复杂的子维度结构(如性别、年龄组分层),并克服不同国家间数据口径不一致导致的数值比对困难;同时,对置信区间字段的保留与原始显示字符串的分离,要求细致的数据清洗逻辑以确保机器学习任务中数值型目标的直接可用性,而非依赖可能引入歧义的格式化文本。
常用场景
经典使用场景
该数据集收录了2000至2021年间非洲47个国家因非传染性疾病导致的死亡人数,数据源自世界卫生组织全球卫生观察站。其经典使用场景在于为非传染性疾病负担的时空演变分析提供结构化、机器可读的数据基础。研究者可通过过滤性别、居住地区等亚维度,提取全国层面或细分人群的死亡率时间序列,进而构建预测模型或开展区域间比较研究,为非洲大陆的非传染性疾病流行病学画像提供可靠支撑。
实际应用
在实际应用中,该数据集可服务于非洲各国卫生部门的疾病监测与资源分配优化,辅助识别高危人群与高负担区域。同时,它也是国际卫生组织制定精准干预策略的数据基石,例如用于模拟减盐政策对心血管疾病死亡率的潜在影响,或评估烟草控制措施在非洲不同国家的实施成效,推动循证公共卫生决策在资源有限地区的落地。
衍生相关工作
该数据集衍生了一系列重要学术工作,包括利用机器学习方法对非洲非传染性疾病死亡率进行时空预测的建模研究,以及结合社会经济与环境协变量(如人均GDP、城市化率)评估死亡风险因子的多变量分析。此外,它还被整合进跨疾病负担的数据集成平台,为健康不平等量化、疾病负担归因分析等前沿议题提供了关键的非洲区域观测证据,成为全球非传染性疾病研究网络中不可或缺的数据节点。
以上内容由遇见数据集搜集并总结生成



