five

electricsheepafrica/africa-who-estimates-of-number-of-homicides

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/electricsheepafrica/africa-who-estimates-of-number-of-homicides
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含非洲国家2000-2019年间WHO GHO指标凶杀案数量估计(VIOLENCE_HOMICIDENUM)的国家级观察数据。它是Electric Sheep Africa系列的一部分,这是一个统一的、适合机器学习使用的非洲数据仓库。数据直接来源于WHO全球健康观察站OData API,并以Parquet文件形式重新打包,采用一致的架构。所有值均来自NumericValue(浮点精度字段),而非显示字符串。在可用的情况下,包含置信区间边界(value_low,value_high)。

This dataset contains country-level observations for the WHO GHO indicator "Estimates of number of homicides" (VIOLENCE_HOMICIDENUM) across African nations, spanning 2000–2019. It is part of the Electric Sheep Africa collection — a unified, ML-ready repository of African data. Data is sourced directly from the WHO Global Health Observatory OData API and repackaged as Parquet files with a consistent schema. All values are drawn from NumericValue (the float-precision field), not the display string. Confidence interval bounds (value_low, value_high) are included where available.
提供机构:
electricsheepafrica
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自世界卫生组织全球卫生观测站(WHO Global Health Observatory)的OData API,经由Electric Sheep Africa团队系统化整合与清洗,以Parquet文件格式重新封装而成。数据覆盖2000至2019年间47个非洲国家的国家层面观测,总计2820条记录,所有数值均采用浮点精度字段(NumericValue),并保留了置信区间上下限(value_low、value_high)。指标唯一代码为VIOLENCE_HOMICIDENUM,代表“杀人事件数量估计值”,同时按性别(SEX)等维度进行分层,每个国家、年份与维度的组合对应独立数据行。
特点
本数据集具备高度的结构化与可用性优势,其模式(schema)统一且完整,包含indicator_code、country_iso3、year、value_numeric等13个字段,并额外提供dim1、dim2等分层维度字段,便于进行性别或居住地类型等子群体分析。数据来源于权威国际组织WHO,且遵循CC BY 4.0开放许可协议,确保了学术与工业场景中的合法使用。作为非洲健康数据统一仓库的一部分,该数据集为流行病学建模、暴力预防政策评估及机器学习预测任务提供了难得的数十载长时序面板数据。
使用方法
用户可通过HuggingFace Datasets库的load_dataset函数一键加载该数据集,返回的Dataset对象可直接转换为Pandas DataFrame进行探索性分析。典型使用方法包括:基于dim1字段过滤出性别为“SEX_BTSX”的全人群数据以获得国家层面无分层估计;利用country_iso3字段筛选特定国家(如肯尼亚,ISO代码KEN)并依年份排序,构建时间序列分析;亦可直接以value_numeric为目标变量,country_iso3与year等为特征,开展回归预测任务。数据以Parquet格式存储,兼顾了存储效率与读取速度,适合处理中等规模表格数据。
背景与挑战
背景概述
该数据集由Electric Sheep Africa团队于近年整理发布,基于世界卫生组织(WHO)全球卫生观察站(GHO)的公开数据,聚焦非洲地区2000至2019年间47个国家的他杀数量估计值。研究核心在于量化非洲大陆因暴力导致的致命伤害负担,为公共卫生政策制定、犯罪学分析和可持续发展目标(SDGs)监测提供基础数据支撑。作为首个以机器学习友好格式统一重构的非洲他杀数据集,其整合了WHO官方指标VIOLENCE_HOMICIDENUM的数值估计与置信区间,有效弥合了原始数据分散、格式不一的鸿沟,对推动非洲区域健康安全与暴力预防研究具有重要奠基意义。
当前挑战
领域层面,他杀数据在非洲长期面临报告偏差与统计缺口难题,许多国家缺乏完整的死因登记系统,导致官方估计与实际情况可能存在显著差异,且跨国家、跨时期的数据可比性因法律定义与执法实践不同而难以保证。构建过程中,应对WHO OData API中不同字段(如NumericValue与DisplayValue)的精度差异、缺失置信区间的处理、以及按性别(SEX)或居住地类型(RESIDENCEAREATYPE)分层信息的对齐,均构成技术挑战。此外,需在保持数据原始语义的同时,统一Parquet格式与标准化Schema,以支撑下游机器学习的直接调用与时间序列分析,这要求对原始非结构化表进行严谨的清洗与重组。
常用场景
经典使用场景
该数据集汇聚了世界卫生组织全球卫生观察站关于非洲地区他杀事件数量的官方估算数据,覆盖2000至2019年间47个非洲国家的2,820条观测记录。其经典使用场景在于构建跨时空的回归与分类模型,用以预测或分类他杀数量的变化趋势。研究者可按性别(如两性、男性、女性)进行分层分析,或聚焦于国家级别的总量统计,从而深入探讨暴力死亡事件的时空分布规律。数据以Parquet格式存储,兼容主流机器学习框架,便于直接用于面板数据分析、时间序列预测等任务。
解决学术问题
该数据集有效回应了公共健康与犯罪学领域长期存在的数据匮乏难题,尤其是在非洲区域系统性他杀统计资料稀缺的背景下。通过提供标准化的、跨国可比的他杀估算值及其置信区间,它使学术研究者能够量化暴力死亡的社会与环境驱动因素,例如经济发展水平、治理效能与冲突动态。数据集的分层结构(如性别维度)还支持探究暴力受害差异的社会结构性根源,为跨学科的实证研究奠定了坚实基础。
衍生相关工作
基于该数据集,学术界已衍生出一系列富有影响力的工作。研究者常将其与WHO的其他指标(如疾病负担、死亡率)融合,构建多层次贝叶斯模型,以推断他杀数据的潜在缺失值或修正测量误差。此外,部分工作利用该数据验证冲突预警系统的有效性,或将其与夜间灯光卫星数据相结合,评估冲突后重建进程与暴力犯罪之间的消长关系。这些研究不仅提升了数据集自身的分析价值,也推动了非洲地区暴力流行病学与和平研究的理论发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务