five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001449

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001449
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含WHO GHO指标年龄标准化食管癌死亡率(每10万人)(SA_0000001449)在非洲国家的国别观察数据,时间跨度为2002-2004年。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO全球健康观察站OData API,并以Parquet文件格式重新打包,采用一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Age-standardized death rates, oesophagus cancer, per 100,000 (SA_0000001449) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,聚焦于非洲地区食管癌年龄标准化死亡率(每10万人)这一关键健康指标。原始数据经系统性提取与清洗后,以Parquet格式封装为统一的机器学习就绪数据集,确保了结构化的一致性。数据构建过程中,所有数值均采用浮点精度的`NumericValue`字段,而非显示字符串,同时保留了置信区间上下界(`value_low`与`value_high`)以供不确定性分析。数据集涵盖2002年至2004年间46个非洲国家的观测记录,总计179行,并依据WHO AFRO区域代码进行过滤,确保了地理范围的精确聚焦。
特点
该数据集的核心特色在于其精细的分层结构,支持按性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行子集筛选,每一国家与年份的组合可对应多条记录以反映不同分层。其Schema设计高度规范化,包含`indicator_code`、`country_iso3`、`year`等关键字段,以及`value_numeric`作为主要机器学习目标变量,辅以置信区间与显示字符串。此外,数据集中融入了`dim1_type`与`dim2_type`等元数据列,清晰地标注了分层类型与取值,为多维分析提供了极大的灵活性,适合用于时间序列建模、区域比较及因果推断等任务。
使用方法
该数据集的使用极为便捷,可通过Hugging Face的`datasets`库直接加载,仅需一行命令`load_dataset('electricsheepafrica/africa-who-age-standardized-death-rates-0000001449')`即可将数据转化为Pandas DataFrame以便进行后续分析。对于需要全国层面、两性混合数据的场景,用户可通过筛选`dim1`列中后缀为`_BTSX`或为空的行来快速获取。用于时间序列分析时,可依据`country_iso3`字段定位特定国家,并借助`year`列进行排序。数据集还支持跨维度聚合,允许研究人员按性别或区域类型进行分组统计,从而灵活地应对回归与分类任务的需求。
背景与挑战
背景概述
该数据集源自世界卫生组织全球卫生观察站(WHO GHO),由Electric Sheep Africa团队于近年整理并发布在HuggingFace平台,聚焦非洲地区2002至2004年间食道癌年龄标准化死亡率(每10万人)。作为非洲健康数据统一化、机器学习就绪存储库的一部分,该数据集旨在弥合全球健康数据与人工智能应用之间的鸿沟。其核心研究问题在于提供一个标准化、结构清晰的跨国死亡率指标,以支持亚非区域的流行病学分析、健康政策评估及机器学习建模。凭借WHO官方数据的权威性与46个非洲国家的广泛覆盖,该数据集为推动非洲健康领域的开放数据运动和精准公共卫生干预奠定了重要基础,提升了该区域在全球健康数据生态中的可见度。
当前挑战
该数据集所解决的领域问题在于,非洲区域的癌症死亡率数据长期存在碎片化、格式不一及获取困难等障碍,阻碍了跨国的比较研究和机器学习模型的训练与应用。构建过程中遇到的挑战主要包括:从WHO GHO的OData API中提取并清洗大量非标准化的表格数据,确保只有浮点精度的`NumericValue`字段被选用,避免显示字符串带来的噪声;对按性别等维度分层的数据进行一致性重排,使每个国家、年份与亚维度组合成为独立行,同时保留置信区间以支持不确定性评估;最终将数据整合为统一的Parquet格式,仅包含179行记录,在极小的样本量下仍保证了结构化质量,为资源受限的非洲健康研究提供了可复用的数据基础。
常用场景
经典使用场景
该数据集聚焦于非洲各国经年龄标准化后的食管癌死亡率(每10万人口),覆盖2002至2004年间的46个非洲国家,共计179条观测记录。其经典用途在于构建回归或分类模型,以预测或分析不同国家、性别及时间维度下的食管癌死亡风险。研究者常利用其分层特征(如性别维度SEX_BTSX、SEX_FMLE、SEX_MLE)进行子群体分析,或聚合数据以探索非洲区域食管癌负担的宏观格局。
解决学术问题
该数据集为探究非洲食管癌死亡率的地域差异与时间趋势提供了标准化基础,解决了因年龄结构不同而难以直接比较各国死亡率的学术难题。它助力于揭示性别、年份与国家变量对食管癌死亡风险的影响,支持公共卫生领域中的病因学假设检验与风险因素识别。其贡献在于补齐了非洲区域高质量、可机器学习化的癌症流行病学数据缺口,推动了全球健康不平等量化研究的进展。
衍生相关工作
该数据集作为Electric Sheep Africa项目的一部分,衍生出多项以非洲健康为主题的机器学习基准工作。研究者基于此数据训练了时间序列预测模型(如LSTM或Prophet)来模拟食管癌死亡率变化趋势,并开发了多任务学习框架以同时估计多个癌症指标的死亡风险。此外,数据集的发布催生了关注非洲健康数据标准化的实践,促进了WHO GHO指标与ML pipelines的无缝对接,为类似流行病学数据集的构建提供了可复现的模板。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作