violent events dataset
收藏github2024-04-10 更新2024-05-31 收录
下载链接:
https://github.com/haayanau/USA_violence_datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含2019年1月1日至20124年3月1日在美国发生的1,523,964起暴力事件记录,以日级别记录,存储在json格式中。数据集总大小为2.20 GB。
This dataset encompasses records of 1,523,964 violent incidents that occurred in the United States from January 1, 2019, to March 1, 2024, documented on a daily basis and stored in JSON format. The total size of the dataset is 2.20 GB.
创建时间:
2024-04-10
原始信息汇总
数据集概述
数据集来源与内容
- 数据集名称:Violence datasets for the United States
- 数据来源:
- 事件数据:Project GDELT Events Database
- GIS数据:OpenStreetMap
- 数据内容:包含所有类型的暴力犯罪数据,包括报告的性侵犯事件。
数据集版本与时间范围
- 算法版本及时间范围:
- v1:1979年1月1日至2005年12月31日
- v2:2006年1月1日至2013年3月31日
- v3:2013年4月1日至2024年3月1日
数据集详细信息
-
暴力事件数据集:
- 记录数:1,523,964条
- 时间范围:2019年1月1日至2024年3月1日
- 格式:JSON
- 大小:2.20 GB
- 事件分类:
- v1:暴力事件48,832条,性侵犯2,807条
- v2:暴力事件390,697条,性侵犯44,707条
- v3:暴力事件1,084,435条,性侵犯120,083条
- 总计:暴力事件1,523,964条,性侵犯168,437条
-
报告的性侵犯GIS数据集:
- 记录数:163,169条
- 时间范围:2019年1月1日至2024年3月1日
- 格式:GeoJSON
- 大小:1.23 GB
数据集应用
- 适用领域:社会科学研究,特别是犯罪及相关主题的研究。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于两个主要数据源:Project GDELT Events Database和OpenStreetMap。GDELT事件数据通过一系列算法收集,具有天级别的粒度,涵盖了从1979年到2024年的数据,分为三个算法版本(v1、v2、v3)。每个版本的数据包括事件的日期、新闻文章来源URL和地理坐标。OpenStreetMap的地理信息数据则通过Nominatim API收集,包含完整的点、线和多边形几何数据。这些数据共同构成了涵盖美国暴力事件的详细记录,包括性侵犯等类型。
特点
该数据集的特点在于其全面性和时间跨度。它不仅涵盖了多种暴力犯罪类型,如性侵犯,还提供了详细的地理信息,使得研究者能够进行空间和时间上的深入分析。数据集以json和geojson格式存储,便于处理和分析。此外,数据集的规模庞大,包含超过150万条暴力事件记录和超过16万条性侵犯记录,为社会科学研究提供了丰富的资源。
使用方法
该数据集适用于社会科学领域的研究,特别是犯罪学和公共安全分析。研究者可以通过分析暴力事件的时间序列和地理分布,探索犯罪模式和趋势。数据集提供了不同算法版本的时间序列图,便于直观理解数据变化。使用者可以直接下载json或geojson格式的数据文件,利用数据分析工具如Python的Pandas库或GIS软件进行进一步处理和可视化。
背景与挑战
背景概述
暴力事件数据集(Violent Events Dataset)是由一系列算法从GDELT事件数据库和OpenStreetMap的GIS数据中构建而成,专门用于美国范围内的暴力犯罪研究。该数据集涵盖了从2019年1月1日至20124年3月1日的暴力事件记录,包括性侵犯等各类暴力犯罪,具有高度的社会科学研究价值。数据集的构建依托于GDELT事件数据的日级别粒度,结合OpenStreetMap的地理信息系统数据,提供了详细的事件地理坐标和时间序列信息。这一数据集的发布,为犯罪学、社会学等领域的研究提供了宝贵的数据支持,有助于深入分析暴力犯罪的时空分布特征及其社会影响。
当前挑战
暴力事件数据集在构建过程中面临多重挑战。首先,数据来源的多样性要求对不同版本算法的数据进行整合与校验,确保数据的准确性和一致性。其次,暴力事件的定义和分类标准复杂,如何在数据集中准确区分各类暴力行为,尤其是性侵犯等敏感事件,是一个技术难题。此外,数据集的规模庞大,处理和存储2.20 GB的非压缩数据对计算资源和存储技术提出了较高要求。最后,数据隐私和安全问题也是不可忽视的挑战,如何在保证数据开放性的同时,确保个人隐私不被泄露,是数据集发布和使用过程中必须解决的问题。
常用场景
经典使用场景
在社会科学研究领域,暴力事件数据集(violent events dataset)被广泛应用于分析和预测美国境内的暴力犯罪趋势。该数据集通过整合GDELT事件数据库和OpenStreetMap的地理信息系统数据,提供了从2019年1月1日至2024年3月1日的每日暴力事件记录,涵盖了包括性侵犯在内的多种暴力犯罪类型。研究者可以利用这些数据进行时间序列分析、空间分布研究以及犯罪模式识别,从而为政策制定和社会治理提供科学依据。
实际应用
在实际应用中,暴力事件数据集为执法部门和城市规划者提供了重要的决策支持。通过分析暴力事件的时间和空间分布,相关部门可以优化警力部署,提升应急响应效率,并制定更为精准的社区安全策略。此外,该数据集还可用于开发犯罪预测模型,帮助提前识别高风险区域,从而减少潜在的暴力犯罪事件。这些应用不仅提升了公共安全水平,也为社会治理的现代化提供了技术支持。
衍生相关工作
基于暴力事件数据集,许多经典研究工作得以展开。例如,有学者利用该数据集开发了基于机器学习的犯罪预测模型,显著提升了预测准确率。此外,地理信息系统(GIS)领域的研究者也基于此数据集进行了空间分析,揭示了暴力犯罪与城市基础设施、人口密度等因素的复杂关系。这些衍生工作不仅丰富了数据集的应用场景,也为相关领域的研究提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成



