five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001437

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001437
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“年龄标准化死亡率,酒精使用障碍,每10万人”(SA_0000001437)在非洲国家的国家级观察数据,时间跨度为2002-2004年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖46个非洲国家,共184行数据,涵盖WHO AFRO地区。数据包含多个子维度,如性别(SEX_BTSX, SEX_FMLE, SEX_MLE),每个国家×年份×维度的组合生成单独的行。数据集模式包括指标代码、国家ISO3代码、WHO地区代码、年份、数值估计值、置信区间边界、显示字符串等列。数据集使用CC BY 4.0许可证,原始数据版权归世界卫生组织所有。

This dataset contains country-level observations for the WHO GHO indicator "Age-standardized death rates, alcohol use disorders, per 100,000" (SA_0000001437) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations with a total of 184 rows, filtered to the WHO AFRO region. It includes sub-dimensions such as SEX (SEX_BTSX, SEX_FMLE, SEX_MLE), where each unique combination of country × year × dimension produces a separate row. The schema includes columns for indicator code, country ISO3 code, WHO region code, year, numeric value estimate, confidence interval bounds, display string, and more. The dataset is licensed under CC BY 4.0, with original data copyright belonging to the World Health Organization.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于非洲地区饮酒所致疾病年龄标准化死亡率这一关键公共卫生指标,数据源自世界卫生组织全球卫生观察站的OData API,经规范提取与整合而成。原始数据经清洗后以Parquet格式存储,所有数值均取自高精度的浮点型字段,并尽可能涵盖置信区间上下界。数据集涵盖2002至2004年间46个非洲国家的观测记录,共计184行,严格限定于WHO非洲区域,确保地域代表性。
特点
该数据集的一大特色在于其支持按性别等分层维度进行细粒度分析,每个国家、年份与维度的组合均独立成行,便于研究人员针对不同亚群深入挖掘。架构设计注重机器学习友好性,采用统一的列式模式,包含点估计值及置信区间,为回归与分类任务提供稳健基础。此外,数据集以CC BY 4.0许可开放,来源权威且可追溯,极大降低了非洲卫生数据应用的门槛。
使用方法
借助HuggingFace的datasets库,用户可通过一行代码加载数据集并转为Pandas DataFrame进行灵活分析。建议首先过滤dim1字段以选取全性别数据,获得国家层面的无分层观测。对于特定国家的时间序列研究,可按ISO国家代码筛选并依年份排序,便于观察变化趋势。数据也可直接用于机器学习模型,作为回归任务的目标变量,或经离散化后用于分类场景。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队基于世界卫生组织全球卫生观察站(WHO GHO)的开放数据构建,发布于HuggingFace平台,旨在为非洲地区的酒精使用障碍导致的年龄标准化死亡率(每10万人)提供机器学习就绪的结构化数据。数据集覆盖2002至2004年间46个非洲国家,包含184条观测记录,整合了性别分层和置信区间信息,为公共卫生领域的跨国家比较与趋势分析提供了基础。作为非洲数据统一仓储计划的一部分,该数据集填补了该区域健康指标在机器学习应用中的空白,有助于推动针对酒精相关疾病负担的建模与政策评估。
当前挑战
该数据集面临的挑战主要源于非洲大陆公共卫生数据的固有难题。首先,区域数据稀缺性与质量差异显著,部分国家在2002–2004年间存在数据缺失或报告不一致,导致模型推广性受限。其次,酒精使用障碍死亡率受社会经济、文化及统计方法多重因素影响,仅凭三年跨度的国家层面聚合数据难以捕捉动态演变与局部异质性。此外,数据构建过程中,从WHO OData API提取时需处理分层变量(如性别)与置信区间字段的标准化,确保不同时间点的子维度可对齐,增加了数据清洗与结构设计的复杂性。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集最经典的用途是作为时间序列分析与跨国比较的基石。研究者可借助其中涵盖46个非洲国家、跨越2002至2004年的年龄标准化酒精使用障碍死亡率数据,洞察不同性别与地域间非传染性疾病负担的分布规律。通过利用`year`、`country_iso3`及按性别分层的`dim1`字段,科研人员能够量化特定国家或地区因饮酒导致的超额死亡风险,进而揭示酒精政策与健康结局之间的潜在关联。其整洁的数值字段(如`value_numeric`)搭配置信区间,为构建回归模型或进行统计推断提供了可靠的数据基础。
实际应用
在实际应用层面,该数据集是国际卫生机构、非洲各国卫生部及非政府组织进行资源分配与健康政策评估的重要工具。公共卫生规划者可以依据不同国家按性别分层的死亡率数据,精准识别出高危人群与热点区域,从而优化酒精管控策略、定向投放健康教育资源。此外,该数据能够与医疗支出、酒精消费量等外部数据集整合,用于构建风险预警模型,帮助决策者提前预判疾病负担的演变趋势。其机器友好的Parquet格式与开源许可,也降低了数据治理成本,便于实时更新与自动化分析管道集成。
衍生相关工作
该数据集衍生出的经典工作主要集中在三大方向:其一,基于跨国面板数据的酒精危害社会决定因素研究,学者们利用性别分层维度探索男性与女性在不同文化背景下死亡率差异的成因;其二,时间序列预测模型开发,例如结合GDP、医疗卫生支出等协变量,使用随机森林或LSTM网络对酒精相关死亡风险进行短期推演;其三,数据整合与基准测试,部分研究将其作为Electric Sheep Africa统一数据体系的一员,验证跨数据集一致性并衍生出面向非洲的标准化健康状况评估工具。这些工作共同强化了非洲在全球健康数据生态系统中的代表性。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务