electricsheepafrica/africa-who-age-standardized-death-rates-0000001452
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001452
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非洲国家在2002-2004年间,世界卫生组织全球健康观察站(WHO GHO)指标年龄标准化交通事故死亡率(每10万人)的国家级观察数据。数据集来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。数据包括数值估计值、置信区间边界(如果可用)以及显示字符串。此外,数据集还涵盖了46个非洲国家,总行数为184行,并按性别等子维度进行分层。
This dataset contains country-level observations for the WHO GHO indicator Age-standardized death rates, road traffic accidents, per 100,000 across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区因道路交通事故导致的年龄标准化死亡率(每10万人)。研究者通过API直接提取原始数值字段(NumericValue)而非显示字符串,确保了数据的精确性。数据随后被重新封装为Parquet文件,采用一致的架构格式,并整合了置信区间上下限(value_low、value_high)等辅助字段。整个构建过程旨在将WHO的开放卫生数据转化为可直接用于机器学习与统计分析的结构化资源,涵盖46个非洲国家在2002至2004年间的观测值,共计184条记录。
特点
此数据集具有高度结构化与多维分层的鲜明特征。其按国家、年份、性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行细分,每个独特的国家-年份-子维度组合构成独立行,支持精细化的群体分析。架构中包含了指示代码(indicator_code)、ISO国家代码(country_iso3)、WHO区域代码等标准标识符,并附带了数值估计及其置信区间,为后续的回归或分类任务提供了丰富的特征空间。此外,数据量适中(n<1K),便于快速加载与原型验证。
使用方法
该数据集的使用便捷,高度集成于HuggingFace生态系统中。用户可通过`datasets`库的`load_dataset`函数一键加载,并利用`to_pandas()`方法将其转换为DataFrame格式进行灵活操作。例如,研究者可依据`dim1`字段过滤出'SEX_BTSX'(两性)数据以获取国家级总体死亡率,或通过`country_iso3`列筛选特定国家(如'KEN'代表肯尼亚)的时间序列数据,按年份排序后进行趋势分析。其Parquet格式支持高效的列式存储与查询,适合大规模并行计算环境下的探索性数据分析。
背景与挑战
背景概述
道路交通安全是全球公共卫生领域的重大议题,尤其在非洲大陆,交通事故致死率长期居高不下,成为制约区域可持续发展的重要障碍。世界卫生组织(WHO)通过全球卫生观察站(GHO)长期监测各成员国的健康指标,其中年龄标准化道路交通死亡率(每10万人)是评估道路安全状况的核心量化标准。本数据集由Electric Sheep Africa团队于2024年前后整理发布,基于WHO GHO官方API采集,覆盖46个非洲国家2002至2004年的观测记录,总计184条数据。该数据集以统一架构的Parquet格式呈现,并包含置信区间等结构化字段,旨在为机器学习模型提供可直接使用的非洲健康数据资源,推动区域流行病学与公共政策研究的定量化进程。作为非洲数据整合计划的组成部分,它填补了该地区高分辨率健康状况基准数据的空白,对后续灾害预警、资源分配及政策评估具有重要参考价值。
当前挑战
该数据集所应对的领域挑战在于非洲道路交通伤害的年龄标准化死亡率长期缺乏精准的国别级公开数据,限制了跨国比较和干预措施的循证设计。现有WHO原始数据存在格式分散、字段不统一等问题,且记录仅覆盖2002至2004年,时间跨度短、样本量小(n<1K),难以支撑时间序列预测或稳健的回归建模。在构建过程中,团队需从OData API逐字段提取数值型指标,排除显示字符串的歧义;同时处理按性别等维度分层导致的非独立观测结构,避免维度爆炸带来的样本稀疏。此外,部分国家的置信区间数据缺失,导致不确定性难以量化和整合;最终数据集仍保留原始分层结构,对聚合分析提出了额外的标准化挑战。
常用场景
经典使用场景
在非洲道路安全与公共卫生研究中,该数据集作为衡量交通事故致死率的基准指标,被广泛用于跨国比较与时间序列分析。研究者通常聚焦于非洲大陆46个国家在2002至2004年间的年龄标准化道路交通事故死亡率,通过提取性别分层数据(如男性、女性及两性合计)及置信区间,构建描述性统计模型。其经典用法包括绘制区域风险热力图,揭示撒哈拉以南非洲与北非之间的显著差异,以及利用固定效应面板模型识别社会经济因素与道路死亡率的关联,为全球疾病负担研究提供关键的非洲地区实证支撑。
衍生相关工作
该数据集衍生出一系列专注于非洲道路安全计量经济学与空间流行病学的经典研究。例如,学者基于其数值创建了非洲首个区域级道路死亡风险指数,并结合世界银行发展指标探讨了人均GDP与死亡率的柯兹涅茨曲线假说;另有工作将其作为验证多源混杂因素控制方法(如倾向得分匹配)的基准数据,以评估紧急医疗服务可达性对生存率的因果效应。在可重复性科学浪潮下,该数据集的标准化预处理流程被封装为可复用的分析管线,激励了后续对坦桑尼亚、尼日利亚等国子集开展的高分辨率时空建模,持续深化对道路死亡驱动机制的理解。
数据集最近研究
最新研究方向
该数据集聚焦于非洲地区道路交通事故导致的年龄标准化死亡率(每10万人),源自WHO全球卫生观察站,覆盖2002至2004年间46个非洲国家的184条记录,并包含性别分层与置信区间信息。在公共卫生研究前沿,这类细粒度数据正被用于构建机器学习模型,以预测交通事故死亡率的时空演变趋势,并结合社会经济、基础设施与政策变量,揭示非洲大陆特有的风险因子。结合联合国道路安全行动十年(2021–2030)等全球热点,该数据集为评估区域干预效果、推动数据驱动的道路安全策略提供了关键基准,其标准化格式助力跨国家比较与模型迁移,对降低中低收入国家交通伤害负担具有深远意义。
以上内容由遇见数据集搜集并总结生成



