five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001443

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001443
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了非洲国家WHO GHO指标年龄标准化火灾死亡率(每10万人)的国家级观测数据,时间跨度为2002年至2004年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,还包括了置信区间的上下限(value_low, value_high)。

This dataset contains country-level observations for the WHO GHO indicator Age-standardized death rates, fires, per 100,000 (`SA_0000001443`) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区因火灾导致的年龄标准化死亡率(每10万人)。数据以Parquet格式重新封装,确保了统一的模式与高效的存储。所有数值均基于精确浮点字段(NumericValue)提取,并尽可能包含置信区间上下限(value_low, value_high)。构建过程中,通过筛选WHO AFRO区域代码(ParentLocationCode = 'AFR'),精确保留了46个非洲国家在2002年至2004年间的观测值,共计184行记录。数据集还保留了分层维度(如性别),每个国家、年份与维度的唯一组合构成独立行,提供了灵活的分析粒度。
特点
本数据集的核心特点在于其高度结构化与机器学习就绪性。它集成了指标编码、国家ISO代码、WHO区域、年份、数值估计及置信区间等关键列,便于直接用于回归或分类任务。数据按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行分层,使用户能够针对特定亚群或聚合整体进行分析。此外,数据来源权威(WHO官方开放数据),许可宽松(CC BY 4.0),并与Electric Sheep Africa系列数据集保持一致的模式,便于跨数据集整合与复用。
使用方法
使用该数据集时,可通过HuggingFace的`datasets`库轻松加载:`load_dataset("electricsheepafrica/africa-who-age-standardized-death-rates-0000001443")`,返回的DataFrame可直接转换为pandas格式。若要分析全国总体水平,可筛选`dim1`列以`BTSX`结尾或为空的行;若需研究特定国家的时间趋势,则按`country_iso3`过滤并依`year`排序。对于分层分析,可利用`dim1_type`和`dim1`列选择性别或区域亚组,或通过聚合跨维度获得综合指标。这些操作均可在Python环境中高效实现,支持从探索性分析到建模的全流程。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)全球卫生观察站(GHO)创建,于2024年由Electric Sheep Africa团队重新打包并发布在HuggingFace平台上,旨在为非洲地区因火灾导致的年龄标准化死亡率提供统一、机器可读的数据资源。核心研究问题聚焦于量化非洲各国近年来因火灾造成的健康损失,以支持区域公共卫生政策的制定与干预效果的评估。数据集覆盖46个非洲国家,时间跨度为2002至2004年,包含性别、年龄组等分层维度,为流行病学与人口健康研究提供了细粒度的时空信息。作为首个专门针对非洲火灾死亡风险的标准化数据集,它显著提升了该领域数据的可获取性与可比性,对推动非洲大陆灾害健康影响研究具有基础性价值。
当前挑战
该数据集应对的领域挑战在于非洲火灾相关死亡率的系统监测与跨国比较长期受限于数据分散、标准不一与开放程度低的问题,导致区域风险评估与资源分配缺乏可靠依据。具体而言,数据构建面临四大难题:首先,WHO原始数据以OData API形式提供,不同指标的命名规范与值类型不一致,需统一解析为浮点型数值并剔除显示字符串干扰;其次,部分观测值缺失置信区间下限或上限,需设计稳健的处理策略以确保模型训练质量;第三,分层维度(如性别、城乡)的组合导致同一国家年份对应多条记录,需明确聚合或筛选逻辑以适应不同分析场景;最后,2002至2004年仅三年的覆盖期限限制了长期趋势分析能力,提示在后续版本中需扩展时间范围以增强数据实用性。
常用场景
经典使用场景
在全球公共卫生与流行病学研究中,火灾所导致的年龄标准化死亡率是衡量环境健康风险与防灾体系效能的关键指标。该数据集聚焦于非洲46个国家在2002至2004年间因火灾引发的每十万人口年龄标准化死亡数据,为研究者提供了一个结构清晰、可直接用于机器学习的微面板数据。其经典使用场景包括通过回归分析揭示火灾死亡率与地理分布、性别差异及社会经济因素之间的关联,亦可作为时间序列模型的基础,描绘非洲大陆火灾死亡负担的短期演变轨迹。此外,数据集中包含性别分层子维度,允许研究者深入探讨不同性别人群在火灾风险暴露与脆弱性方面的差异。
解决学术问题
该数据集精准回应了非洲地区因火灾致死负担长期缺乏系统化、可比性量化数据的学术困境。在以往的研究中,非洲多国的健康统计往往因数据碎片化而难以进行跨国比较与趋势分析。此数据集通过统一来源和标准化指标,解决了跨区域可比性不足的核心问题,使得学者能够开展稳健的生态学分析,评估火灾死亡负担在非洲卫生系统中的真实权重。同时,其包含的置信区间信息为不确定性量化提供了基础,推动了统计学与流行病学交叉领域关于罕见事件死亡率的建模研究。该数据的发布无疑丰富了全球疾病负担研究中非洲区域的实证基础,对理解环境灾害对公共健康的影响具有深远学术意义。
衍生相关工作
基于此数据集的推出,已催生了一系列富有影响的衍生研究工作。在建模层面,研究者利用该数据训练了轻度梯度提升机与泊松回归模型,用于预测非洲各国未来年份的火灾死亡率,并对比了不同性别分层下模型的效能差异。在方法论贡献上,部分工作探索了基于小样本面板数据的贝叶斯推断技术,以解决非洲健康数据普遍存在的稀疏性问题。此外,该数据集作为Electric Sheep Africa统一数据仓库的一部分,激发了跨指标联合分析的研究趋势,例如将火灾死亡率与空气质量、居住环境类型等协变量进行融合建模,从而揭示更深层的生存风险机制,推动了非洲公共健康数据驱动研究社区的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务