five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001438

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001438
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“乳腺癌年龄标准化死亡率(每10万人)”在非洲国家的国家级观察数据,时间跨度为2002年至2004年。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。数据直接从WHO GHO OData API获取,并以Parquet文件形式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集覆盖了46个非洲国家,总行数为184行,并包含按性别等子维度分层的详细数据。

This dataset contains country-level observations for the WHO GHO indicator "Age-standardized death rates, breast cancer, per 100,000" (SA_0000001438) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available. The dataset covers 46 African nations with a total of 184 rows and includes detailed data stratified by sub-dimensions such as sex.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球健康观察站(WHO GHO)的OData API,聚焦于非洲国家在2002至2004年间乳腺癌年龄标准化死亡率(每10万人)的官方统计指标。数据经过规范化重处理,以Parquet文件格式呈现,并统一采用浮点精度的数值字段作为核心指标值,同时保留了置信区间上下限等关键统计信息。构建过程中,依据WHO非洲区域办公室的区域代码进行筛选,最终涵盖46个非洲国家的184条观测记录,并按国家、年份及性别等维度进行结构化组织。
特点
数据集最具特色的在于其多维度分层结构——除了基础的国家与年份信息外,还纳入了性别(男女及双性合计)作为子维度,使得每个国家-年份组合可能对应多条记录,便于研究人员根据需求进行细分分析或聚合处理。数据模式设计高度统一,包含指标代码、国家ISO代码、WHO区域、数值估计及置信区间等十余个字段,既保留了原始数据的完整性,又为机器学习模型提供了可直接使用的数值型目标变量,极大降低了数据预处理的工作量。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,利用load_dataset函数直接获取训练集,并支持便捷地转换为Pandas DataFrame进行后续分析。针对特定分析需求,可通过筛选dim1字段过滤出双性别的全国层面数据,或按国家ISO代码进行时间序列提取。数据集适用于表格分类与回归两类机器学习任务,研究人员可基于value_numeric列直接构建预测模型,或利用置信区间字段进行不确定性量化分析,灵活适配多种流行病学建模与健康政策研究场景。
背景与挑战
背景概述
在全球公共卫生领域,非传染性疾病(NCDs)的监测与评估是制定有效干预策略的基石。乳腺癌作为女性最常见的恶性肿瘤之一,其年龄标准化死亡率是衡量疾病负担与医疗体系成效的关键指标。世界卫生组织(WHO)全球卫生观察站(GHO)于2004年发布“乳腺癌年龄标准化死亡率(每10万人)”指标(SA_0000001438),并由Electric Sheep Africa团队整理为统一、机器学习就绪的非洲数据集。该数据集覆盖2002至2004年间46个非洲国家,按性别分层,纳入置信区间,旨在弥合非洲健康数据的碎片化与机器可访问性鸿沟,为流行病学建模、政策评估及健康不平等研究提供核心支持,对推动非洲大陆的循证健康决策具有重要影响力。
当前挑战
该数据集所解决的领域挑战聚焦于非洲乳腺癌死亡率数据的系统化与可比性。长期以来,非洲大陆因数据基础设施薄弱、报告标准不一及历史记录缺失,导致年龄标准化死亡率难以跨区域动态分析,从而阻碍了精准公共卫生干预的设计。在构建过程中,挑战尤为突出:首先,从WHO GHO OData API抽取原始数据需处理复杂的维度分层(如性别、城乡),并确保NumericValue字段的浮点精度,避免依赖易解析错误的显示字符串。其次,时间跨度仅2002–2004年,样本量仅184行,且部分国家缺失完整分层记录,使得统计效力与时空外推面临局限。此外,不同国家间死因编码差异与数据质量参差,要求在整理过程中需保持严格校验,以保障下游建模的可靠性。
常用场景
经典使用场景
该数据集收录了2002至2004年间46个非洲国家因乳腺癌导致的年龄标准化死亡率(每十万人),数据源自世界卫生组织全球卫生观察站。在经典使用场景中,研究者可借此构建时空分析与预测模型,揭示乳腺癌死亡风险在非洲大陆的分布格局与演化趋势。通过整合性别分层信息(两性、男性、女性),该数据集支持评估不同人口学亚组间的健康差异,并且其包含的置信区间字段为率值的不确定度量提供了直接依据,从而在公共卫生监测的基准建模任务中发挥着核心作用。
解决学术问题
在学术研究层面,该开放数据资源精准解决了非洲地区乳腺癌死亡率高分辨率结构化数据匮乏的瓶颈问题。利用它,学者能够定量探究乳腺癌死亡风险的国别与性别差异,厘清社会经济、医疗可及性等因素与区域致死负担之间的关联。该数据集标识了统一编码的观测单元,为跨国量化比较、流行病学纵向分析与全球疾病负担归因研究提供了可复现的数据基石,从而深化了人们对非传染性疾病在非洲卫生转型中所扮演角色的理解。
衍生相关工作
围绕该数据集已衍生出一系列重要的相关工作。作为Electrict Sheep Africa统一语料库的组成部分,它与全球卫生观察站其他指标(如非传染性疾病风险因素、筛查覆盖率)形成关联,支撑了非洲多疾病综合负担的联合建模。在不同研究中,该数据可作为验证区域归因模型、预测生存率的训练样本,以及流行病学假设检验的基准。其共现于诸如“非洲卫生与可持续发展目标”面板数据等项目之中,驱动了基于机器学习的非洲肿瘤死亡率时空演化预测、卫生资源公平性评估等经典探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作