five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001446

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001446
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标“年龄标准化肝硬化死亡率(每10万人)”在非洲国家的国家级观察数据,时间跨度为2002年至2004年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory的OData API,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自`NumericValue`字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(`value_low`,`value_high`)。数据集覆盖了46个非洲国家,总行数为182行,并包含性别等子维度信息。

This dataset contains country-level observations for the WHO GHO indicator "Age-standardized death rates, liver cirrhosis, per 100,000" (`SA_0000001446`) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available. The dataset covers 46 African nations with a total of 182 rows and includes sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区2002至2004年间每10万人中因肝硬化导致的年龄标准化死亡率。数据经过系统化采集与重新打包,以Parquet文件格式呈现,并采用统一的数据模式。所有数值均源自API中的浮点精度字段'NumericValue',而非展示性字符串,同时保留了可用的置信区间上下界(value_low、value_high),确保数据的精确性与完整性。数据集覆盖46个非洲国家,共计182条观测记录,并依据WHO AFRO区域代码(ParentLocationCode = 'AFR')进行筛选。此外,通过SEX等子维度(如SEX_BTSX、SEX_FMLE、SEX_MLE)进行分层,使得每个国家、年份与维度的独特组合对应一行数据,便于多维分析。
特点
本数据集的核心特点在于其结构化与机器学习就绪性。作为Electric Sheep Africa统一非洲数据仓库的一部分,它提供了清晰的列式模式,包括指标代码、国家ISO3代码、年份、数值估计及置信区间等关键字段,为统计建模与预测任务奠定了坚实基础。数据按性别的子维度进行分层,支持用户针对特定群体(如全体、男性或女性)进行精确过滤,或跨层聚合以获取宏观趋势。此外,数据的时间跨度虽限于三年,但覆盖46个非洲国家,展现出地域广度,且来源权威,采用CC BY 4.0许可协议,确保了使用的合规性与可重复性,适合用于健康经济学、流行病学及非洲区域发展研究。
使用方法
通过HuggingFace的datasets库,用户可轻松加载数据:使用load_dataset函数直接获取,并转换为Pandas DataFrame进行便捷操作。例如,筛选全体人口(SEX_BTSX)或缺失性别维度的国家级数据,可通过判断dim1字段实现;针对特定国家(如肯尼亚)的时间序列分析,则利用country_iso3列进行过滤,并按年份排序。数据支持分类与回归两类任务,可结合子维度进行多变量建模。建议在分析前检查置信区间列的可获得性,并根据研究需求选择是否聚合不同性别或区域的数据层,以适配公共卫生干预效果评估或死亡率预测等具体应用场景。
背景与挑战
背景概述
在非洲大陆,非传染性疾病负担日益加重,肝硬化作为导致过早死亡的重要因素,其流行病学监测对公共卫生决策至关重要。由世界卫生组织(WHO)全球卫生观察站(GHO)创建并于2004年发布的《非洲WHO GHO:年龄标准化死亡率(肝硬化,每10万人)》(SA_0000001446)数据集,由Electric Sheep Africa团队整理并托管于HuggingFace平台,聚焦于2002至2004年间46个非洲国家的肝硬化年龄标准化死亡率。该数据集的核心研究问题为量化非洲地区肝硬化死亡风险的空间分布与时变趋势,为全球疾病负担研究及非洲区域健康政策制定提供了关键证据基础,并对后续机器学习驱动的健康预测模型产生了深远影响。
当前挑战
该数据集所解决的领域问题挑战在于:肝硬化死亡率在非洲多国缺乏统一、高质量且机器可读的标准化记录,传统数据分散于不同报告,难以进行跨国家跨年份的横向比较与纵向趋势分析。同时,其构建过程面临多重挑战:首先,原始WHO数据存在按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等多维度分层,需要设计一致的架构以保留维度信息而避免信息失真;其次,数据从GHO的OData API抽取后,需将显示字符串(value_display)与数值型精度值(value_numeric)分离,并整合置信区间上下界(value_low、value_high),这对数据清洗的精确性提出高要求;最后,仅覆盖2002至2004年三个年份,时间跨度有限,且部分国家缺失亚组信息,限制了长期健康变迁的建模能力。
常用场景
经典使用场景
该数据集收录了2002至2004年间46个非洲国家的年龄标准化肝硬化死亡率数据,每十万人口为单位,涵盖性别分层(男性、女性及两性合计)和置信区间信息。作为典型的时序横截面面板数据,它最经典的使用场景是构建非洲地区肝硬化疾病负担的预测模型,研究人员可运用回归分析或机器学习算法,探索死亡率随时间演变的趋势,以及国家间、性别间的差异模式,从而为公共卫生决策提供数据支撑。
实际应用
在实际应用中,该数据集的潜力尤为突出,例如指导世界卫生组织和非政府组织在非洲分配医疗资源——依据各国家死亡率的高低调整肝硬化筛查与治疗项目优先级。公共卫生部门可借助它监测特定人群的健康状况,评估干预措施的效果,例如对比2002至2004年间死亡率的变化,以验证酒精管控或疫苗接种政策的成效。此外,它还为健康经济学中的成本效益分析提供关键输入。
衍生相关工作
由该数据集衍生的相关工作典型地体现在三个方面:其一,它被集成到Electric Sheep Africa统一数据仓库中,促进了跨指标融合研究,例如将肝硬化死亡率与HIV、糖尿病负担结合探索共病模式;其二,基于该面板数据,学者开发了非洲健康不平等指数,量化性别和国家间的差异;其三,其时间序列特征推动了时空贝叶斯预测模型在资源有限地区的应用,为未来疾病负担预估奠定方法论基础。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务