five

electricsheepafrica/africa-who-adolescent-mortality-rate-mortado

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-adolescent-mortality-rate-mortado
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标“青少年死亡率(每1000特定年龄群体)”(MORTADO)的国家级观测数据,时间跨度为1990年至2023年。它是Electric Sheep Africa集合的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件形式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Adolescent mortality rate (per 1 000 age specific cohort)" (`MORTADO`) across African nations, spanning 1990–2023. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO GHO)的OData API,聚焦非洲大陆47个国家1990至2023年间青少年死亡率(每千名特定年龄组)这一关键指标。通过系统性地抽取API中的NumericValue字段(而非显示字符串)作为核心数值,并保留可用的置信区间边界(value_low与value_high),数据被重构为具有统一模式的Parquet文件格式。所有观测均依据WHO AFRO区域代码筛选,确保地理覆盖的纯粹性,最终形成包含14,382条记录的机器学习就绪型结构化数据集。
特点
数据集以国家-年份-维度组合为基本单元,呈现高度结构化的多维特征。除点估计值外,还纳入置信区间信息,为不确定性建模提供支持。分层维度(如性别SEX_BTSX、SEX_FMLE、SEX_MLE)使得用户可精细过滤特定亚群或进行跨层聚合。指标编码MORTADO与WHO官方标识一致,便于跨数据集关联。数据时间跨度长达34年,覆盖非洲绝大多数国家,为长期趋势分析与区域比较研究提供了丰沛的数据基础。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集:`load_dataset("electricsheepafrica/africa-who-adolescent-mortality-rate-mortado")`,并转换至pandas DataFrame进行深度分析。利用dim1字段可筛选特定性别分组(如以"_BTSX"结尾获取两性总体数据),或通过country_iso3列提取某国时间序列。字段value_numeric可直接作为回归任务目标变量,而value_low与value_high则适用于区间预测或不确定性量化场景。数据分层结构支持灵活的聚合与过滤操作,适配多元统计分析或机器学习管线。
背景与挑战
背景概述
在全球公共卫生领域,青少年死亡率作为衡量健康水平的关键指标,直接反映了社会发展与医疗体系的效能。该数据集由世界卫生组织(WHO)于2023年通过其全球卫生观察站(GHO)创建,并由Electric Sheep Africa团队重新整理封装,聚焦于非洲地区1990至2023年间以每千名同龄人群为单位的青少年死亡率(MORTADO)。数据集整合了47个非洲国家的14,382条观测记录,涵盖性别等亚维度及置信区间信息,旨在为机器学习驱动的区域健康分析提供标准化、高质量的基础数据。其发布显著增强了非洲健康数据的可获取性与机器学习就绪性,为政策制定者、研究人员与数据科学家探索青少年死亡率的时空分布与驱动因素奠定了基础。
当前挑战
该数据集所应对的核心领域挑战在于非洲青少年死亡率的动态监测与预测,尤其是资源匮乏环境下,传统统计模型常因数据稀疏、维度复杂而难以捕捉真实趋势。构建过程中,挑战源于多源异构数据的整合:原始WHO数据需通过OData API采集,并经历格式统一、缺失值处理与置信区间保留等工序;同时,数据涵盖47个国家跨度34年,存在时间序列不连续、国家间定义差异及亚维度(如性别分层)的复杂关联,对特征工程与模型泛化能力提出高要求。此外,保持数据溯源的一致性与许可证合规性,亦增加了数据清洗与文档化的难度。
常用场景
经典使用场景
非洲青少年死亡率数据集(MORTADO)是基于世界卫生组织全球卫生观察站数据精心构建的时序横截面数据集,覆盖47个非洲国家、跨度1990至2023年的观测记录。在机器学习与公共卫生交叉领域中,该数据集最经典的使用场景是作为回归任务的目标变量,用于建模和预测非洲各国青少年死亡率随时间的变化趋势。研究人员常借助其包含的性别亚群分层(男女及总体)信息,构建多任务学习模型或时间序列预测模型,以揭示不同性别的死亡率演化差异。此外,数据集提供的置信区间上下界可作为不确定性估计的天然标签,支撑贝叶斯回归或分位数回归方法的探索,为后续统计推断提供坚实基础。
实际应用
在实际健康治理与数据科学应用中,该数据集具有多重价值。发展机构和非政府组织可将其嵌入实时监测仪表盘,跟踪各国在联合国可持续发展目标第三项(良好健康与福祉)上的进展,尤其是降低青少年死亡率这一子目标的完成情况。公共卫生部门能够利用其丰富的时域信息训练轻量级预测模型,提前预警某一国家或地区青少年死亡率的异常波动,从而在资源有限的背景下优化医疗和干预资源的部署。与此同时,数据科学家可将该数据集作为标准基准,用于评估和比较不同时间序列方法(如Prophet、LSTM或Transformer)在非洲健康数据上的泛化能力,推动时序预测技术向低资源地区迁移。
衍生相关工作
依托该数据集,学界与工业界已催生出一系列经典衍生工作。在建模层面,研究者基于其分层结构开发了面向非洲的青少年代谢与传染病多重病因的贝叶斯层次模型,用以分解死亡率变异的源头。在数据集成方向上,该数据集被纳入Electric Sheep Africa统一库后,催生了跨指标联合分析的框架——例如将青少年死亡率与孕产妇死亡率、疟疾发病率等指标对齐,构建非洲多维健康指数。此外,数据集的开放许可和标准化Parquet格式促使多个Kaggle竞赛和学术基准(如低资源时序预测挑战赛)将其作为指定测试平台,有力推动了可复现的健康数据科学研究生态的形成。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务