five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001455

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001455
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标按年龄标准化的暴力死亡率(每10万人)(SA_0000001455)在非洲国家的国家级观测数据,时间跨度为2002年至2004年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory的OData API获取,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Age-standardized death rates, violence, per 100,000 (SA_0000001455) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区每10万人口中按年龄标准化的暴力死亡率指标(代码SA_0000001455)。原始数据经过系统性重加工,以Parquet格式统一存储,并采用一致的列式结构。数据提取自API中的NumericValue字段以确保数值精度,同时保留置信区间上下限(value_low、value_high)等信息。覆盖2002至2004年间46个非洲国家的观测记录,共计184行,并依据WHO AFRO区域代码进行筛选。对于按性别或年龄组等维度分层的指标,每一国家×年份×维度的唯一组合独立成行,通过dim1和dim2字段标识,便于用户按需过滤或聚合。
特点
该数据集的核心特点在于其机器就绪(ML-ready)的设计理念,统一的Parquet格式和精简的列结构极大降低了数据预处理的复杂度,可直接用于表格分类或回归任务。字段包含明确的指标代码、国家ISO3代码、年份与数值估计,并附有置信区间,为不确定性建模提供支持。分层维度列(dim1、dim2)的引入允许用户灵活提取特定子群的数据,例如仅分析两性总体的全国层面数值。数据来源权威、许可开放(CC BY 4.0),且时间跨度虽短(三年)但覆盖非洲主要国家,为区域暴力死亡率研究提供了干净、可复用的结构化资源。
使用方法
用户可通过HuggingFace的datasets库便捷加载数据,使用load_dataset函数直接获取训练集,并转换为Pandas DataFrame进行后续操作。典型应用包括过滤特定维度的数据,例如利用dim1列筛选出以_BTSX结尾的条目以获取两性总体数据,或通过country_iso3列选取特定国家(如KEN)的时间序列。对于回归任务,可直接以value_numeric为目标变量;而对于分类任务,可根据数值阈值进行离散化。若需要跨年份或跨国家的聚合分析,可依据year和country_iso3分组后计算均值等统计量。该数据集还支持与同一系列中其他WHO GHO指标数据集的联合分析,拓展研究视野。
背景与挑战
背景概述
本数据集源自世界卫生组织(WHO)全球卫生观察站(GHO),由Electric Sheep Africa团队于近期整理并发布,聚焦于非洲大陆2002至2004年间每十万人口中经年龄标准化处理的暴力相关死亡率(指标代码SA_0000001455)。该数据集覆盖46个非洲国家,共计184条观测记录,旨在为机器学习模型提供统一、可复用的非洲健康数据资源。作为非洲地区暴力死亡流行病学研究的量化基石,该数据集填补了区域健康数据在标准化与机器学习友好性方面的空白,对于揭示暴力致死的地域与人口学差异、推动公共卫生干预政策的循证制定具有重要学术与实践价值。
当前挑战
该数据集所解决的领域核心挑战在于非洲暴力死亡率的精确量化与跨区域可比性问题:年龄标准化处理虽消除了人口年龄结构的混杂效应,但数据仅涵盖三年窗口期,难以捕捉长期趋势与突发冲突的瞬时影响。构建过程中面临的挑战包括:其一,原始GHO数据以OData API形式提供,需经格式统一与异常值过滤;其二,分层变量(如性别、城乡)导致的多维度记录需谨慎处理,以避免聚合偏误;其三,少量国家存在置信区间缺失,给不确定性建模带来困难。此外,非洲地区死亡登记系统的不完善可能引入报告偏倚,需在模型训练中予以特别关注。
常用场景
经典使用场景
在公共卫生与流行病学研究领域,该数据集的核心价值在于为非洲地区暴力相关年龄标准化死亡率提供标准化、机器可读的统计资料。研究者可借助其结构化的指标代码、年份和国家分类,进行跨国的暴力死亡率时空分布分析,探查性别维度(如男性与女性死亡率的差异)以及置信区间反映的估计不确定性,从而揭示暴力作为致死因素在非洲大陆的区域性特征与演变趋势。
解决学术问题
该数据集解决了非洲暴力死亡率研究长期面临的数据碎片化、可比性差与获取门槛高的问题。通过提供统一架构的抛物线文件格式和可直接用于机器学习建模的数值字段,它使得学者能够系统性地检验暴力死亡率的区域异质性、时间序列变化及其与社会经济变量的关联,为全球卫生不平等、暴力流行病学等议题的实证研究奠定了可靠的数据基础,推动了基于证据的政策评估与理论构建。
衍生相关工作
该数据集作为联合国可持续发展目标(SDG)中暴力相关指标的重要数据源,衍生出一系列复刻与扩展研究。典型的经典工作包括利用其数值进行跨年份暴力死亡率趋势的贝叶斯层次建模、将数值与非洲治理指数、冲突事件数据库进行关联分析以揭示暴力死亡的社会决定因素,以及基于性别分层数据开展的全球暴力负担比较研究,这些工作均强化了该数据集在暴力流行病学与全球健康计量学中的基准地位。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务