five

electricsheepafrica/africa-who-premature-deaths-due-to-noncommunicable-diseases-as-a

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-premature-deaths-due-to-noncommunicable-diseases-as-a
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“因非传染性疾病(NCD)导致的过早死亡占所有NCD死亡比例”(`NCD_UNDER70`)在非洲国家的国家级观测数据,时间跨度为2000年至2021年。数据集是[Electric Sheep Africa](https://huggingface.co/electricsheepafrica)系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并重新打包为Parquet文件,具有一致的架构。所有值均来自`NumericValue`(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。

This dataset contains country-level observations for the WHO GHO indicator "Premature deaths due to noncommunicable diseases (NCD) as a proportion of all NCD deaths" (`NCD_UNDER70`) across African nations, spanning 2000–2021. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据API,聚焦于非洲地区因非传染性疾病导致的过早死亡(70岁以下)占所有非传染性疾病死亡的比例这一关键健康指标。数据以Parquet格式重新封装,并采用了统一的模式结构,涵盖2000年至2021年间47个非洲国家的3102条观测记录。所有数值均来源于API返回的浮点精度字段`NumericValue`,并尽可能包含了置信区间上下限(`value_low`、`value_high`)以增强统计严谨性。此外,数据集根据性别等维度进行了分层,每种国家-年份-维度的组合形成独立行,便于细粒度分析。
特点
该数据集的核心特色在于其高度一致的结构化设计,专为机器学习应用而优化。其包含清晰的字段定义,如`indicator_code`、`country_iso3`、`year`及`value_numeric`,并提供了`dim1`和`dim2`两个分层维度列,用以处理按性别或居住区域类型等分类的亚组数据。数据覆盖了全非洲47个国家,时间跨度长达22年,且全部来源于WHO官方权威渠道,确保了数据的可靠性和时效性。此外,作为Electric Sheep Africa项目的一部分,该数据集以开源许可形式发布,可直接集成到数据科学工作流中。
使用方法
用户可通过HuggingFace的`datasets`库直接加载该数据集,并使用`to_pandas()`方法转换为DataFrame进行后续分析。为简化操作,建议利用`dim1`列过滤出无需分层的数据,例如以`SEX_BTSX`结尾的条目代表两性混合的全国性数据。对于时间序列分析,可按`country_iso3`(如`KEN`代表肯尼亚)筛选特定国家,再按`year`列排序即可获得该国的历史变化趋势。数据集的表格结构非常适合应用于回归或分类任务,也可结合`value_low`和`value_high`进行不确定性量化研究。
背景与挑战
背景概述
在非洲大陆,非传染性疾病(NCD)导致的过早死亡已成为严峻的公共卫生挑战。世界卫生组织(WHO)全球卫生观测站(GHO)自2000年起持续监测该指标,并于2021年由Electric Sheep Africa团队系统整理后,发布了涵盖47个非洲国家的‘非洲WHO非传染性疾病过早死亡比例’数据集。该数据集聚焦于70岁以下因NCD死亡占全部NCD死亡的比例(指标代码NCD_UNDER70),旨在为流行病学研究、健康政策评估及机器学习模型提供标准化的时间序列数据。其影响力体现在:一方面填补了非洲区域高质量、结构化NCD健康数据的空白,另一方面通过统一Parquet格式和详尽元数据,降低了数据科学家与公共卫生研究人员的使用门槛,为揭示非洲NCD负担的地域差异及时间演变趋势奠定了坚实基础。
当前挑战
该数据集所解决的领域核心挑战在于,非洲地区长期面临非传染性疾病数据零散、口径不一及获取障碍的问题,传统上难以进行跨国家、跨时间的系统化比较与预测分析。构建过程中亦遭遇多重挑战:首先,WHO原始API返回的数据包含多种格式的显示字符串与置信区间信息,需精确提取数值型‘NumericValue’并剥离上下界(value_low/value_high),清洗与转换工作繁重;其次,47个国家的观测时间跨度达22年,且部分年份或国家存在缺失值,平衡数据完整性与统计代表性是一大难题;最后,数据集包含按性别(SEX)等维度分层的子列,如何在不破坏时间序列一致性的前提下,将多元分层信息以标准化schema存储,为后续机器学习任务的特征工程与模型泛化能力提出了较高要求。
常用场景
经典使用场景
该数据集在公共卫生与流行病学领域堪称基石,其核心使命是追踪非洲各国因非传染性疾病导致的70岁以下过早死亡占所有非传染性疾病死亡的比例。研究者可借助这一跨度为2000至2021年、覆盖47个非洲国家的面板数据,构建回归模型以剖析非传染性疾病过早死亡率的时空演变规律。性别分层变量(SEX_BTSX、SEX_FMLE、SEX_MLE)的引入,使得分析能够深入揭示性别维度的健康不平等现象。数据集的经典应用场景包括:利用时间序列分析评估国家层面非传染性疾病防控政策的阶段性成效,或通过跨国家比较识别在降低过早死亡率方面表现卓越或滞后的典型个案。
衍生相关工作
该数据集孕育了一系列具有标杆意义的衍生工作。在方法论层面,它推动了多指标综合指数的构建,例如学者曾将本数据与WHO全球健康观察站中关于高血压患病率、烟草使用率等其他指标融合,生成衡量非洲国家非传染性疾病防控综合能力的复合评分体系。在因果推断领域,基于该数据集的纵向结构,研究者开发了固定效应模型与差分法结合的计量框架,用以评估医疗改革或税收政策对过早死亡率变动的净效应。更引人注目的是,该数据集已成为训练非洲健康大语言模型(LLM)的关键语料之一——其表格化、多国别、时间序列的特性,为模型理解非洲大陆健康不平等的时空格局提供了结构化训练样本,催生了如“Africa Health Forecast”等预测性分析工具的开源项目。
数据集最近研究
最新研究方向
当前,非洲大陆正面临非传染性疾病(NCD)带来的严峻公共卫生挑战,而过早死亡占NCD总死亡比例是评估疾病负担与健康干预成效的关键指标。africa-who-premature-deaths-due-to-noncommunicable-diseases-as-a数据集整合了世界卫生组织全球健康观测站2000至2021年间47个非洲国家的官方统计,涵盖性别、区域等多维度分层数据,为机器学习驱动的区域健康预测建模提供了标准化、高粒度的基础资源。该数据集的前沿研究方向聚焦于利用时间序列分析与回归模型,探索社会经济、环境与医疗可及性等因素如何影响NCD早死风险,进而助力全球卫生政策的精准制定与资源优化配置,其发布对推动非洲非传染性疾病防控的数据驱动决策具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务