five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001453

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001453
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察指标“自残年龄标准化死亡率(每10万人)”在非洲国家的国家级别观察数据,时间跨度为2002年至2004年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度字段),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Age-standardized death rates, self-inflicted injury, per 100,000" (`SA_0000001453`) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源于世界卫生组织全球卫生观察站(WHO GHO)OData API的官方数据,专注于非洲地区因自残导致的年龄标准化死亡率(每10万人)。数据经过结构化整理,以Parquet格式存储并保持统一模式,所有数值均采用浮点精度的原始字段而非显示字符串,同时保留了置信区间上下限等关键统计信息。数据集涵盖2002至2004年间46个非洲国家,共计184条观测记录,并按性别等维度进行分层,每个国家-年份-维度的独特组合形成独立数据行,便于研究者按需筛选或聚合分析。
特点
该数据集的核心优势在于其高度一致性、机器就绪性及领域针对性。作为Electric Sheep Africa统一数据仓储的一部分,它提供了标准化的表格结构,包含指示代码、国家ISO代码、年份、数值及可信区间等明确字段,直接适用于分类与回归任务。数据本身源于权威的WHO官方统计,经过精心提取与再封装,消除了原始API中可能存在的噪声与格式差异,极大降低了数据清洗成本。小而精的规模(n<1K)使其非常适合快速原型验证、教学演示及区域健康指标的趋势探索。
使用方法
使用者可通过HuggingFace Datasets库加载该数据集,一行代码即可将数据转为Pandas DataFrame进行后续分析。典型用法包括按性别维度筛选全国性数据(如仅保留Both-sexes记录),或是按国家代码(如KEN)提取特定国家的时间序列。由于指标已按年份对齐,研究者可直接开展趋势分析或构建回归模型。该数据集亦可与同一仓储中其他非洲健康指标联合使用,支持跨指标的关联分析与多变量建模,极大拓展了其在公共卫生领域的应用潜力。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,并经Electric Sheep Africa团队重新整理后发布于HuggingFace平台,旨在为非洲地区提供机器学习就绪的自杀性伤害年龄标准化死亡率指标。数据集覆盖2002年至2004年间46个非洲国家的观察数据,共计184条记录,核心研究问题聚焦于量化非洲大陆因自我伤害导致的过早死亡负担。作为WHO开放数据计划的一部分,该数据集通过统一的Parquet格式和标准化模式,大幅降低了健康数据在机器学习应用中的获取与处理门槛,为非洲公共卫生领域的预测建模、趋势分析及政策评估提供了关键数据基础。其对相关领域的影响力体现在推动基于证据的全球健康研究,尤其是填补了非洲地区自杀死亡率综合数据的空白。
当前挑战
数据集所解决的领域问题在于,非洲地区因自伤导致的死亡率和伤残调整生命年持续攀升,但缺乏高质量、结构化的时间序列数据以支持流行病学分析和干预策略制定。构建过程中面临的核心挑战包括:第一,原始数据来源于WHO的OData API,需要克服多维度分层(如性别和居住地类型)导致的复杂数据清洗与标准化难题;第二,仅有三年(2002–2004年)的有限观测窗口,使得长期趋势建模和稳健的统计推断受到样本量不足的制约;第三,不确定性区间(置信上限与下限)仅部分可用,给模型预测精度的验证带来了额外复杂性;此外,不同国家间数据收集方法与报告质量的差异,也可能引入未观测到的异质性和测量误差。
常用场景
经典使用场景
在全球健康与流行病学研究中,非洲地区自残伤害导致的年龄标准化死亡率是评估精神健康负担与自杀预防政策效果的核心指标。该数据集汇集了2002年至2004年间46个非洲国家的官方统计数据,涵盖按性别分层的死亡率估值及置信区间,为构建跨国家、跨时间的纵向分析提供了标准化数值基础。研究者可以通过筛选特定性别维度或国家类别,精准捕捉该时期非洲大陆自杀现象的分布特征与变化趋势,进而揭示区域间差异并识别高危群体。
实际应用
在实际公共卫生决策中,该数据集被用于指导非洲各国自杀预防战略的制定与资源分配。例如,公共卫生机构可依据性别与时间变化数据,识别死亡率异常升高的国家并启动针对性干预;国际组织如WHO则借助这些标准化数据监测区域健康目标的进展,评估心理健康服务覆盖的薄弱环节。此外,非政府组织在开展社区干预项目时,也能利用该数据进行基线测量与效果评估,从而优化预防措施的落地策略。
衍生相关工作
围绕该数据集衍生出多项具有代表性的研究工作,包括基于多国面板数据的精神健康不平等分析、自杀率与社会经济指标的关联建模,以及利用置信区间信息进行不确定性量化的时空趋势研究。在方法学层面,该数据被用于验证小样本健康指标的机器学习预测算法,推动数据稀缺环境下统计推断技术的进步。同时,它作为非洲健康数据统一化运动的一部分,启发了后续区域数据集构建标准化管线的开发,显著降低了后续研究者处理异构健康数据的门槛。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务