five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001439

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001439
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家在2002-2004年间,世界卫生组织全球健康观察站(WHO GHO)关于年龄标准化结肠和直肠癌死亡率(每10万人)的指标数据(指标代码:SA_0000001439)。数据来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖了46个非洲国家,总行数为184行,并按性别等子维度进行分层。

This dataset contains country-level observations for the WHO GHO indicator "Age-standardized death rates, colon and rectum cancers, per 100,000" (SA_0000001439) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观察站(WHO GHO)的开放数据接口,聚焦非洲地区结肠与直肠癌的年龄标准化死亡率(每10万人)。数据经过系统化抽取与整合,提取了原始API中的浮点精度数值字段,避免了显示字符串的歧义。所有观测值均按国家-年份-分层维度的唯一组合进行编排,并保留了置信区间上下界。最终以Parquet格式封装,形成具备一致模式、可直接用于机器学习流程的数据集,隶属于Electric Sheep Africa非洲统一数据仓库。
特点
数据集覆盖2002至2004年间46个非洲国家的184条记录,展现了时间与地理维度上的有限但聚焦的纵向截面。关键变量包括指标代码、ISO国家代码、WHO区域、年份、点估计值及对应的置信区间界限。数据按性别(全体、女性、男性)进行了分层,通过dim1字段加以标识,允许用户按需筛选或跨层聚合。所有观测值均源自权威机构,并采用CC BY 4.0许可,确保了开放性与可复现性。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载该数据集:执行`load_dataset`命令后,数据将以Pandas DataFrame形式呈现。典型用法包括过滤出全体性别的国家层面数据,或针对特定国家(如肯尼亚)提取时间序列。分层维度的存在要求用户在进行分析前主动筛选所需类别,以避免混淆。数据集结构清晰,变量命名规范,适用于分类与回归任务,亦可作为非洲健康指标建模的基准数据源。
背景与挑战
背景概述
在全球公共卫生领域,非传染性疾病(NCDs)的负担日益沉重,其中结直肠癌作为发病率和死亡率均居前列的恶性肿瘤,对中低收入国家构成了严峻挑战。世界卫生组织(WHO)全球卫生观察站(GHO)系统收集了各成员国的健康指标数据。在此背景下,Electric Sheep Africa团队于近年整合了WHO GHO数据,创建了africa-who-age-standardized-death-rates-0000001439数据集,专门聚焦2002至2004年间非洲46个国家的结直肠癌年龄标准化死亡率(每10万人)。该数据集以统一的Parquet格式、标准化的模式(包括点估计值及置信区间)呈现,旨在为机器学习与统计建模提供高质量、可直接使用的非洲健康数据资源。其发布填补了非洲区域特定癌症死亡率精细数据的空白,有力地推动了针对非洲人群的疾病负担量化、风险因素识别及卫生政策制定的数据驱动研究,成为连接全球健康数据与区域应用的重要桥梁。
当前挑战
该数据集所解决的领域核心挑战在于非洲大陆结直肠癌死亡率数据的稀缺性与碎片化。以往研究常因数据不完整、标准不一或样本量过小而难以进行可靠的时间趋势分析与跨国比较,进而限制了精准公共卫生干预策略的设计。此外,在数据集构建过程中,面临几重挑战:一是原始WHO OData API的数据格式非标准化,需经过复杂的解析与清洗方能统一;二是观察时间跨度极短(仅2002–2004年),且总样本量较小(184行),对分析模型的泛化能力与统计效力构成制约;三是数据存在缺失问题——部分国家记录缺失,同时置信区间字段并非全部可用,需审慎处理;四是数据存在按性别等多维度分层(dim1),若聚合不当可能引入偏倚或微观数据隐私风险。这些挑战要求研究者在利用该数据集时,需结合适当的数据填充、稳健估计及分层分析等方法,以确保结论的可靠性。
常用场景
经典使用场景
在非洲公共卫生与流行病学研究中,该数据集常被用于构建和验证结直肠癌年龄标准化死亡率的预测模型。研究人员可依据46个非洲国家在2002至2004年间的死亡数据,借助回归或分类算法,分析性别、年份与国家间死亡率的差异。其简洁的表格结构与分性别子维度设计,使其成为时间序列分析与多国横向比较的理想起点,尤其适合探索非洲地区非传染性疾病负担的时空演变规律。
解决学术问题
该数据集主要填补了非洲区域结直肠癌标准化死亡率高质量、可复用数据的空白,解决了长期以来该地区癌症流行病学研究中数据零散与标准不一的问题。通过提供一致的指标代码、置信区间与分层信息,它支撑了跨国死亡率差异的量化分析,促进了对于非洲癌症负担性别差异与时间趋势的理解,为全球卫生不平等研究提供了关键的区域性实证基础。
衍生相关工作
基于此数据集,衍生出了一系列关于非洲癌症负担建模与卫生系统绩效评估的研究工作。典型工作包括利用贝叶斯层次模型估算缺失年份的死亡率,或通过对比不同性别与国家的标准化率,探讨社会经济因素与癌症结局之间的关联。这些衍生研究不仅深化了对于非洲非传染性疾病流行病学的认识,也为类似全球健康开源数据集的标准化整合与再利用提供了方法学范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作