five

electricsheepafrica/africa-who-probability-of-dying-between-age-30-and-exact-age-70-from

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-probability-of-dying-between-age-30-and-exact-age-70-from
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“30岁至70岁人群因心血管疾病、癌症、糖尿病或慢性呼吸道疾病死亡概率(%)”(NCDMORT3070)在非洲国家的国家级观察数据,时间跨度为2000年至2021年。数据集是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Probability (%) of dying between age 30 and exact age 70 from any of cardiovascular disease, cancer, diabetes, or chronic respiratory disease" (NCDMORT3070) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站OData API,聚焦非洲地区30岁至70岁之间因心血管疾病、癌症、糖尿病或慢性呼吸系统疾病而死亡的概率(NCDMORT3070指标)。数据经过系统性抽取与重包装,以Parquet格式存储,并纳入统一的Electric Sheep Africa数据集集合中。所有数值均来源于浮点精度的NumericValue字段,而非显示字符串,同时保留了可用的置信区间上下界(value_low与value_high)。数据集覆盖2000年至2021年间47个非洲国家的3102条观测记录,每条记录包含国家、年份、性别分层等多维度信息,形成一个结构规范的机器学习就绪表格。
特点
该数据集最显著的特点在于其覆盖范围与分层结构的精细度。它囊括了非洲区域全部47个国家长达22年的时序数据,总计超过三千条观测,能够支撑大规模、多国别的比较研究与时间序列分析。数据按照性别(SEX_BTSX、SEX_FMLE、SEX_MLE)进行细致分层,允许研究者针对不同亚群进行独立建模或聚合分析。每一观测值均附带置信区间,这在统计分析中尤为珍贵,便于评估估计的可靠性。此外,一致的列式模式与干净的Parquet格式降低了数据预处理成本,提升了跨数据集整合的效率。
使用方法
研究者可通过HuggingFace的datasets库便捷加载该数据集,一句命令即可将数据转换为Pandas DataFrame进行后续分析。使用中需注意按维度过滤,例如筛选dim1字段中的SEX_BTSX值或NaN值可获得仅包含总人口(两国别)的观测,从而获得国家层面的全人口估计。若要聚焦某一国家的时间演变趋势,可基于country_iso3列筛选并依年份排序。数据集同样支持与WHO其他GHO指标进行横向联合分析,只需利用indicator_code进行标识串联即可,从而构建更加全面的非传染性疾病负担评估模型。
背景与挑战
背景概述
在非传染性疾病(NCDs)日益成为全球公共卫生重大威胁的背景下,世界卫生组织(WHO)非洲区域办事处与全球卫生观察站(GHO)于2021年前后构建了该数据集,旨在量化30岁至70岁之间因心血管疾病、癌症、糖尿病或慢性呼吸系统疾病死亡的概率。该数据集由Electric Sheep Africa团队整理并托管于HuggingFace平台,涵盖2000年至2021年间47个非洲国家的国家级观测数据,共计3102条记录。其核心研究问题聚焦于评估非洲地区非传染性疾病过早死亡负担的时空分布,为区域卫生政策制定和疾病干预效果监测提供了关键量化依据。作为WHO GHO指标体系的重要实践案例,该数据集通过标准化模式与机器学习就绪格式,显著促进了非洲健康数据的可访问性与分析效率,对全球健康公平和循证决策具有深远影响。
当前挑战
该数据集的核心挑战在于其解决的领域问题——非传染性疾病的过早死亡率作为复合指标,需综合多个疾病系统的数据源,而非洲地区普遍存在诊断覆盖率低、死因登记不完整等问题,导致估计值的不确定性较高。构建过程中,数据从WHO API抽取后需处理多重分层维度(如性别、城乡),并整合置信区间边界,这对数据清洗与统一模式设计提出了严格挑战。此外,不同年份间国家数据缺失的比例不一,例如部分国家早期年份仅有粗略估计,需要在保留时间序列完整性与数据质量之间权衡。最终,将原始数值映射为机器学习友好的特征时,还需应对异构编码与指标解释差异,确保模型训练中避免隐性偏见。
常用场景
经典使用场景
在非传染性疾病流行病学与全球健康研究的交汇领域,该数据集作为评估非洲地区中年人群非传染性疾病累积死亡风险的核心资源,被广泛应用于构建年龄标准化死亡概率的时空预测模型。研究人员常利用其国家层面的面板数据结构,结合性别人口学维度,刻画心血管疾病、癌症、糖尿病及慢性呼吸疾病四类主要非传染性疾病的综合致死负担,并基于置信区间信息开展不确定性量化分析。
衍生相关工作
该数据集催生了一系列具有标志性的衍生研究,包括基于贝叶斯层次模型对非洲非传染性疾病死亡风险的协同估计工作,以及将死亡率数据与空气污染、烟草消费等环境风险因素耦合的多元时空分析框架。部分前沿研究更将其与全球疾病负担(GBD)数据进行交叉验证,构建了适用于数据稀疏地区的非传染性疾病风险预测迁移学习范式,显著拓展了官方统计数据的学术应用边界。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区非传染性疾病(心血管疾病、癌症、糖尿病及慢性呼吸系统疾病)导致的过早死亡风险,为全球卫生领域提供了关键的区域性健康监测指标。在流行病学与公共健康前沿研究中,其核心价值在于支持对非洲国家30至70岁成人非传染性疾病所致死亡率变化趋势的纵向分析,揭示该地区因生活方式转型与医疗资源分布不均所带来的健康挑战。结合WHO全球卫生观察站数据,该数据集可推动基于性别、城乡差异等维度的健康不平等研究,评估可持续发展目标中降低过早死亡率的具体进展,并为精准预防策略与卫生政策制定提供数据驱动的科学依据。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务