five

electricsheepafrica/africa-who-age-standardized-death-rates-0000001445

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-age-standardized-death-rates-0000001445
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含世界卫生组织全球健康观察站(WHO GHO)指标年龄标准化肝癌死亡率(每10万人)(SA_0000001445)在非洲国家层面的观测数据,时间跨度为2002-2004年。这是Electric Sheep Africa项目(一个统一的、适合机器学习使用的非洲数据存储库)的一部分。数据直接从WHO Global Health Observatory OData API获取,并以Parquet文件格式重新打包,采用一致的架构。所有数值均来自NumericValue字段(浮点精度),而非显示字符串。在可用的情况下,还包括置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator Age-standardized death rates, liver cancer, per 100,000 (SA_0000001445) across African nations, spanning 2002–2004. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自世界卫生组织全球卫生观察站(WHO GHO)的官方数据接口,聚焦于非洲地区每十万人中因肝癌导致的年龄标准化死亡率(指标代码SA_0000001445)。研究团队通过OData API直接抓取原始数值,并摒弃了展示性字符串,统一采用高精度的浮点型字段NumericValue作为核心观测值。所有数据经重新封装为Parquet格式文件,辅以一致的列式架构,同时保留置信区间上下界(value_low与value_high)以支持不确定性分析。数据集覆盖了WHO非洲区域(AFRO)的46个国家,时间跨度为2002年至2004年,共计182条记录。针对性别等分层变量,数据以国家、年份与维度组合的独立行呈现,便于按需筛选或跨层聚合。
特点
该数据集最鲜明的特质在于其针对性与结构化整合。作为Electric Sheep Africa统一知识库的组成部分,它专为非洲卫生领域的机器学习任务而生,兼具分类与回归分析潜力。每一条记录均包含国家ISO代码、年份、数值估计及其置信区间,并保留了原始展示字符串以兼顾可读性。值得注意的是,数据以性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等维度进行分层,提供了超越简单聚合的精细视角。这种设计使得研究者既能在国家级尺度上追踪肝癌死亡率的时间趋势,又能对比不同性别亚群间的差异,从而揭示隐藏在平均数值之下的卫生不平等格局。
使用方法
借助HuggingFace的datasets库,用户可一键加载该数据集至工作流。通过load_dataset函数获取后,数据以Pandas DataFrame形式呈现,便于集成分析。针对仅分析特定亚群的需求,建议过滤dim1字段:例如选取以'SEX_BTSX'结尾或缺失dim1的行,即可获得两性合计的国家级数据。若要追踪单国时序,可对country_iso3列进行筛选并按年份排序。鉴于数据集规模精炼(不足千行),计算开销极低,适合作为教学示例、基准测试或快速原型开发的理想起点。此外,其CCA 4.0许可协议保障了开放的学术与商业使用权限。
背景与挑战
背景概述
在全球公共卫生领域,肝癌作为恶性肿瘤的主要死因之一,其地域分布与预防控制策略的制定紧密相关。世界卫生组织全球卫生观察站(WHO GHO)长期追踪各地区的健康指标,以支持循证决策。由Electric Sheep Africa团队于近年来整理并发布的这一数据集,聚焦于非洲国家2002至2004年间年龄标准化肝癌死亡率(每10万人口),涵盖了46个非洲国家的182条观测记录,并提供了按性别分层的数据。该数据集源自WHO GHO的官方OData API,经统一清理后以Parquet格式呈现,为研究者提供了一个标准化、可直接用于机器学习的非洲健康数据资源,有力推动了该区域疾病负担的量化分析与比较研究。
当前挑战
该数据集所应对的核心领域挑战在于非洲大陆肝癌死亡率数据的稀疏性与非标准化问题。长期以来,非洲各国因统计能力参差、医疗记录系统不完善,导致跨国的疾病负担分析严重受阻。此数据集通过统一整理WHO官方数据,首次将46个国家的年龄标准化死亡率与置信区间纳入同一框架,为流行病学建模与区域健康政策评估提供了关键基础。在构建过程中,挑战集中于多源数据整合与质量保证,包括从WHO API爬取时处理不完整的指标分层(如性别、地域类型)、清洗不一致的显示字符串以提取精确数值、以及处理缺失的置信区间,确保最终数据集的可靠性与可用性。
常用场景
经典使用场景
在公共卫生与流行病学研究中,该数据集通常被用于探究非洲地区肝癌年龄标准化死亡率的时空分布格局。研究者可结合国家、年份与性别维度,构建多变量回归模型或时间序列分析,揭示肝癌负担在非洲大陆的演变规律。其简洁而规范的表格结构为机器学习任务提供了理想的训练与评估素材,尤其适用于小样本条件下的分类与回归建模,助力发展面向资源有限地区的健康预测工具。
实际应用
实际应用中,该数据集可作为国际卫生组织、非洲疾控中心及各国卫生部制定肝癌防控策略的基础参考。决策者能够基于年龄标准化死亡率数据,识别高风险地区与脆弱人群,优化筛查资源分配与干预措施部署。此外,它还可嵌入预警系统,结合社会经济与行为数据实时评估公共卫生干预成效,推动数据驱动的健康治理,助力非洲实现可持续发展目标中关于非传染性疾病控制的承诺。
衍生相关工作
该数据集衍生了许多开创性工作,例如基于其构建的非洲肝癌死亡率预测模型被整合进全球疾病负担研究(GBD)的区域子分析中,提升了亚非拉地区癌症流行病学建模的精度。此外,研究者利用该数据开发了面向小样本迁移学习的新框架,将有限的国家级观测推广至次国家级风险映射。其开放获取特性还催生了交互式可视化仪表盘,如WHO非洲区域卫生观测平台上的动态展示版,赋能更广泛的社区参与和科普传播。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务