electricsheepafrica/africa-who-age-standardized-death-rates-0000001448
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001448
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标“口腔和口咽癌年龄标准化死亡率(每10万人)”在非洲国家的国家级观察数据,时间跨度为2002-2004年。数据直接来源于WHO GHO的OData API,并以Parquet文件格式重新打包,具有一致的架构。所有数值均来自浮点精度字段(NumericValue),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low, value_high)。数据集是Electric Sheep Africa项目的一部分,该项目是一个统一的、适合机器学习使用的非洲数据存储库。
This dataset contains country-level observations for the WHO GHO indicator "Age-standardized death rates, mouth and oropharynx cancer, per 100,000" (`SA_0000001448`) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍

构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的OData API,经Electric Sheep Africa团队统一整理并重新封装为Parquet格式文件。数据集聚焦于非洲地区,基于WHO AFRO区域代码(ParentLocationCode = 'AFR')进行筛选,涵盖2002至2004年间46个非洲国家的口腔及口咽癌年龄标准化死亡率(每十万人)的观测数据,共计183条记录。所有数值均取自NumericValue浮点精度字段,并附有上下置信区间边界(value_low、value_high),确保了数据的精确性与可靠性。此外,数据集保留了原始分层维度信息,如性别(SEX),通过dim1和dim2字段呈现,便于用户按需进行子群体分析。
特点
该数据集具有高度的结构化与一致性,其schema设计由13个标准化字段组成,包括指标代码、国家ISO3代码、WHO区域、年份、数值估计及置信区间等关键变量。数据已按国家-年份-分层维度的唯一组合生成独立行,支持灵活的数据筛选与聚合操作。特别地,数据集仅包含NumericValue字段的浮点数精确值,而非显示字符串,直接适用于机器学习回归与分类任务。其覆盖范围虽限于2002至2004年的短时段,但囊括了46个非洲国家,为区域卫生流行病学研究提供了宝贵的时间断面数据。CC BY 4.0许可协议进一步促进了数据的开放使用与学术共享。
使用方法
用户可通过HuggingFace的datasets库轻松加载该数据集,仅需一行代码 `load_dataset("electricsheepafrica/africa-who-age-standardized-death-rates-0000001448")` 即可获取训练集,并转换为Pandas DataFrame进行后续分析。为聚焦特定分析目标,建议用户根据dim1字段过滤分层数据,例如选择性别维度中以“_BTSX”结尾的行以获取两性合并的国家级数据。对于时间序列分析,可按国家ISO3代码(如KEN)筛选并依年份排序。此外,数据集的高质量数值格式使其可直接用于构建回归或分类模型,预测口腔及口咽癌的年龄标准化死亡率及其置信区间。
背景与挑战
背景概述
该数据集由世界卫生组织(WHO)通过其全球卫生观察站(GHO)平台发布,经Electric Sheep Africa团队整理后以机器学习就绪格式呈现于HuggingFace平台,创建时间可追溯至2004年。核心研究问题聚焦于非洲地区口腔及口咽癌年龄标准化死亡率(每10万人)的时空分布规律,旨在为区域癌症流行病学研究提供量化基础。该数据集覆盖46个非洲国家、2002至2004年间的183条观测记录,是WHO AFRO区域健康指标体系的重要组成部分,对推动非洲大陆非传染性疾病负担评估具有基准性价值。其规范化架构和开放许可协议降低了数据获取门槛,促进了跨学科健康研究协作。
当前挑战
数据集所解决的领域问题在于量化口腔及口咽癌在非洲地区的真实死亡负担,该领域长期面临诊断能力不足与登记系统残缺导致的死亡漏报或误分类挑战,使得标准化死亡率估计必须依赖有限且质量参差的观测数据。构建过程中,Electric Sheep Africa团队需应对WHO OData API中多维分层数据(如按性别划分的SEX_BTSX、SEX_FMLE、SEX_MLE子维度)的复杂解析,同时处理置信区间字段(value_low、value_high)的缺失值问题,以及不同年份间国家覆盖不均衡带来的建模偏差。此外,将原始展示字符串(value_display)与精确浮点数值(value_numeric)对齐并剔除显示格式噪声,亦是保证数据科学可复现性的关键操作挑战。
常用场景
经典使用场景
该数据集聚焦于非洲地区口腔与口咽癌年龄标准化死亡率这一关键健康指标,覆盖46个非洲国家2002至2004年的观测数据。经典使用场景包括进行跨国别的肿瘤流行病学负担比较分析,通过性别分层(如性别汇总、男性和女性)探索不同人群的死亡风险差异,以及构建时间序列模型以揭示该区域特定癌症死亡率的短期变化趋势。研究者可借助该数据集开展回归分析,识别死亡率背后的社会经济、环境或医疗可及性等潜在影响因素,为非洲大陆的癌症防控策略提供数据驱动的循证支撑。
实际应用
在实际应用层面,该数据集可被公共卫生机构与政策制定者用于非洲国家的癌症控制规划与资源分配决策。通过分析不同国家及不同性别群体的死亡率分布,相关部门能够识别出高风险区域与弱势人群,从而优先部署口腔癌筛查、早期诊断与治疗资源。此外,该数据还可融入全球疾病负担监测系统,辅助WHO非洲区域办事处评估干预措施效果,并作为基层卫生信息系统校准与预测模型的输入依据,真正实现从数据到行动的转化。
衍生相关工作
该数据集作为Electric Sheep Africa系列的一部分,衍生了一系列面向非洲数据的标准化工作,包括统一定义的数据模式、可直接加载的Python接口以及跨数据集的融合能力。其结构化的元数据设计启发了后续针对非洲其他疾病负担指标(如传染病、孕产妇健康)的同类数据集构建。在学术领域,相关研究可基于此数据开展多指标联合分析,例如将口腔癌死亡率与吸烟率、酒精消费等风险因素数据集进行关联挖掘,从而催生关于非洲非传染性疾病风险模式的综合性建模工作,并推动可复现、开放的区域健康数据生态建设。
以上内容由遇见数据集搜集并总结生成



