five

electricsheepafrica/africa-who-crude-suicide-rates

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-crude-suicide-rates
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家WHO GHO指标粗自杀率(每10万人)(SDGSUICIDE)的国家级观察数据,时间跨度为2000-2021年。它是Electric Sheep Africa集合的一部分——一个统一的、适合机器学习使用的非洲数据存储库。数据直接来源于WHO Global Health Observatory OData API,并以Parquet文件格式重新打包,采用一致的架构。所有值都来自NumericValue(浮点精度字段),而不是显示字符串。在可用的情况下,包含置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Crude suicide rates (per 100 000 population)" (`SDGSUICIDE`) across African nations, spanning 2000–2021. It is part of the [Electric Sheep Africa](https://huggingface.co/electricsheepafrica) collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from `NumericValue` (the float-precision field), not the display string. Confidence interval bounds (`value_low`, `value_high`) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站的OData API,聚焦非洲地区2000至2021年间“每十万人粗自杀率”这一核心指标。数据经过系统化抽取与重塑,以Parquet格式存储,确保兼具机器学习友好性与结构化一致性。所有数值均采用浮点精度的NumericValue字段,避免使用显示字符串所带来的歧义;同时尽可能纳入置信区间上下界,为后续统计推断提供基础。依托WHO AFRO区域编码筛选出47个非洲国家,涵盖共4653条观测记录,构建出横跨时间与地理维度的规范数据集。
特点
该数据集的一大特色在于其多维分层结构。除国家与年份维度外,还纳入了性别(SEX_BTSX、SEX_FMLE、SEX_MLE)等子维度,使研究者能够依据dim1与dim2字段过滤特定亚组或在全量数据上做聚合分析。每条记录除精准浮点数值外,附带显示字符串及数据更新时间戳,方便溯源与质量验证。数据集以统一、可复用的模式呈现,简化了非洲区域卫生研究中的跨指标对比与机器学习建模流程。
使用方法
用户可通过HuggingFace Datasets库直接加载数据集,调用load_dataset函数获取训练集后,灵活转为Pandas DataFrame进行下游分析与建模。针对多层次切片需求,可通过筛选dim1字段中的SEX_BTSX值或空值保留全性别国家层面数据;也可依据country_iso3字段对特定国家进行时序分析,以年份排序后观察自杀率变化趋势。该设计降低了非洲卫生数据获取与清洗的门槛,为依赖结构化数据的回归或分类任务提供了标准化入口。
背景与挑战
背景概述
非洲地区自杀率数据长期处于零散、不统一的困境,严重制约了该区域精神卫生政策制定与可持续发展目标(SDGs)的监测评估。在此背景下,Electric Sheep Africa团队于2023年整合世界卫生组织全球卫生观察站(WHO GHO)的官方数据,构建了africa-who-crude-suicide-rates数据集。该数据集系统收录了2000至2021年间47个非洲国家的年度粗自杀率(每10万人口),涵盖性别等子维度,并以统一结构化格式存储,旨在为机器学习驱动的非洲自杀风险建模、时空趋势分析和公共卫生干预效果评估提供高质量基准数据。作为首个面向非洲大陆的ML-ready自杀率开放数据集,其发布显著提升了非洲卫生领域数据可获取性与标准化水平,为跨学科研究搭建了关键桥梁。
当前挑战
该数据集面临的核心挑战源自非洲地区特有的数据环境:首先,多数非洲国家缺乏完善的死亡登记系统,导致自杀事件的漏报、误报现象普遍,数据质量参差不齐,直接影响点估计的可靠性与模型泛化能力;其次,各国在自杀认定标准、统计口径和上报周期上存在显著差异,使得跨国比较与纵向分析易受系统偏差干扰。在构建层面,团队需从WHO OData API中提取并清洗非结构化数据,处理不同年份间的维度不一致(如性别分组缺失)和置信区间不完整问题,同时需在保留统计属性的前提下设计兼容多任务(分类与回归)的范式,这对数据集的工程实现提出了较高要求。
常用场景
经典使用场景
在公共卫生与流行病学领域,该数据集常用于构建非洲各国粗自杀率的时间序列预测模型,研究者可借助其跨性别维度(SEX_BTSX、SEX_FMLE、SEX_MLE)的细分指标,分析不同性别群体的自杀率演变趋势。通过将年份作为时序特征、国家ISO编码作为分类标识,该数据为探索非洲大陆自杀率的时空分布格局提供了机器学习就绪的标准化基础。
实际应用
在实际应用层面,该数据集能够为非洲各国卫生部门构建自动化的自杀风险预警系统提供训练数据,通过将历史粗自杀率与同期经济波动、自然灾害、流行病暴发等多源异质数据关联,支持政策制定者识别高危时期与脆弱群体。数据中按性别分层的信息还可用于指导精准干预资源的分配,例如针对男性群体开展社区心理健康外展服务的优先布局。
衍生相关工作
围绕该数据集衍生了多项标志性工作:Electric Sheep Africa团队以此为核心构建了统一的非洲健康指标机器学习存储库,催生了基于梯度提升树的区域自杀率缺失值插补框架;后续研究利用其时间序列特性发展了面向稀疏非洲数据的贝叶斯分层预测模型;学术界还将其与同源的非洲传染病死亡率数据集联合,产出分析自杀与其他死因替代性关系的多疾病竞争风险模型。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务