five

electricsheepafrica/africa-who-nmx-age-specific-death-rate-between-ages-x-and-xn

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-nmx-age-specific-death-rate-between-ages-x-and-xn
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标nMx - 年龄x到x+n之间的特定年龄死亡率(LIFE_0000000029)在非洲国家的国家层面观察数据,时间跨度为2000年至2021年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator nMx - age-specific death rate between ages x and x+n (LIFE_0000000029) across African nations, spanning 2000–2021. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于非洲地区年龄别死亡率这一关键公共卫生指标,数据源自世界卫生组织(WHO)全球卫生观察站(GHO)的OData API接口。研究团队对原始数据进行了系统性的结构化处理,将NumericValue字段中的浮点精度数值作为核心观测值,并保留了置信区间上下界。数据以Parquet文件格式存储,采用统一架构,覆盖了47个非洲国家从2000年至2021年间共58,938条观测记录。数据集还包含了按性别等维度进行的亚组分层信息,每个国家-年份-维度的组合均形成独立数据行,便于研究者根据具体分析需求进行筛选或聚合。
特点
该数据集最显著的特点在于其高度结构化和机器学习就绪的数据组织形式。所有观测值均采用统一的GHO指标编码LIFE_0000000029,包含国家ISO3代码、WHO区域、年份等标准化字段,以及数值估计值、置信区间上下界等统计指标。数据按性别(男性、女性、两性合计)进行维度分层,研究者可通过dim1和dim2字段灵活获取特定性别或居住地类型的子集。此外,数据集保留了原始显示字符串,提供了直观的数值表达与置信区间展示,便于快速理解和验证数据质量。
使用方法
研究者可通过HuggingFace datasets库便捷加载该数据集,使用load_dataset函数直接获取训练集,并转换为Pandas DataFrame进行进一步分析。对于国家级别的分析,可通过过滤dim1字段中以_BTSX结尾的维度值或空值来获取两性合计的国家数据。时序分析仅需按国家ISO3代码筛选并结合year字段排序即可实现。该数据集支持分类与回归两类任务,适用于构建年龄别死亡率预测模型、流行病学趋势分析以及公共卫生政策评估等研究方向。
背景与挑战
背景概述
非洲大陆长期面临严峻的公共卫生挑战,而年龄别死亡率作为衡量人口健康水平的核心指标,对疾病负担评估、卫生政策制定及健康干预效果追踪具有不可替代的价值。该数据集由Electric Sheep Africa团队于2023年前后整理发布,源自世界卫生组织全球卫生观察站(WHO GHO)OData API,聚焦于非洲47个国家2000至2021年间“nMx - 年龄别死亡率”指标的观测数据。其核心研究问题在于提供一份结构统一、机器学习就绪的非洲死亡率数据集,以弥补该区域高精度、细粒度卫生数据稀缺的短板。通过整合性别、年份及置信区间等多维信息,该数据集为流行病学建模、人口预测及区域健康不平等研究提供了关键数据基础,对推动非洲公共卫生领域的数据驱动决策具有重要意义。
当前挑战
该数据集所应对的领域问题在于非洲地区年龄别死亡率数据长期存在碎片化、标准不一及时间序列不完整等缺陷,严重制约了跨国家、跨年份的死亡模式比较与动态趋势分析。构建过程中,研究团队需从WHO的复杂OData接口中批量抽取并清洗原数据,处理指标代码异构、维度划分多样(如性别、居住地类型)及缺失值模式复杂等问题。尤其面对不同国家上报的置信区间边界不统一、显示字符串与数值字段可能不一致等挑战,团队必须建立严谨的schema映射规则,确保数据可重复性与机器学习友好性。此外,覆盖47国且跨越22年的庞大数据量对存储格式与检索效率亦提出较高要求。
常用场景
经典使用场景
该数据集的核心价值在于为非洲地区年龄别死亡率(nMx)的建模与预测提供了标准化、跨国的结构化数据源。研究者常将其用于构建死亡率曲线的统计模型,如Lee-Carter模型及其贝叶斯扩展,或作为生存分析中的基础响应变量。通过47个非洲国家长达22年的观测,该数据集支持对死亡率随年龄变化的纵向趋势分析,尤其适合研究高死亡率区域的年龄模式异质性。
解决学术问题
在学术层面,该数据集填补了非洲区域精细年龄别死亡率数据的稀缺性,解决了以往研究因数据零散或缺失而难以开展跨国比较的困境。它使学者能够系统评估非洲国家在千年发展目标及可持续发展目标期间的死亡率改善进程,量化性别、地域等分层维度对死亡风险的影响,并检验生命表方法的适用性。这些工作深化了对健康转型延迟地区的流行病学理解。
衍生相关工作
衍生工作中,该数据集已成为多项机器学习基准研究的基石。例如,研究者基于它开发了针对稀疏纵向数据的时序预测模型,利用Transformer架构捕捉死亡率随年龄和年份的非线性趋势。此外,该数据还催生了用于估计不完整生命表插值算法的评估框架,并作为公平性研究的数据源,探讨死亡率预测模型在不同性别和国籍组间的性能偏差。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务