five

Crime_Incidents_in_2025.csv|犯罪数据数据集|公共安全数据集

收藏
github2025-04-14 更新2025-04-15 收录
犯罪数据
公共安全
下载链接:
https://github.com/aniketrai07/Excel-Project
下载链接
链接失效反馈
资源简介:
该数据集包含2025年报告的犯罪事件的详细信息,包括地理、时间和类别数据。数据集包含6,185行记录和25列,关键列包括事件报告时间、犯罪类型、犯罪方法、事件地点等。
创建时间:
2025-04-12
原始信息汇总

数据集概述:Crime Incidents in 2025

基本信息

  • 数据集名称: Crime Incidents in 2025
  • 文件名称: Crime_Incidents_in_2025.csv
  • 记录数: 6,185行
  • 列数: 25列

关键列描述

列名 描述
REPORT_DAT 事件报告的时间戳
SHIFT 犯罪发生的工作班次(如DAY, EVENING, MIDNIGHT)
OFFENSE 犯罪类型(如THEFT/OTHER, ASSAULT W/DANGEROUS WEAPON)
METHOD 犯罪使用的方法
BLOCK 事件发生的地址或位置块
WARD, DISTRICT 政治和警务分区
LATITUDE, LONGITUDE 地理坐标
START_DATE, END_DATE 事件的时间窗口
NEIGHBORHOOD_CLUSTER, CENSUS_TRACT 人口统计区域
BID 商业改进区(如适用)

分析目标

  1. 探索犯罪的时间模式(时间点、日期范围)
  2. 使用地理定位聚类识别热点区域
  3. 分析不同社区的犯罪类型
  4. 评估不同区域事件频率的变化

示例分析

  • 按时间点统计犯罪频率
  • 每个区域最常见的犯罪类型
  • 犯罪位置的热力图
  • 社区间的比较
AI搜集汇总
数据集介绍
main_image_url
构建方式
在公共安全与犯罪学研究领域,Crime_Incidents_in_2025数据集通过系统整合执法机构公开记录构建而成。该数据集收录了2025年度6,185起犯罪事件的完整档案,采用结构化表格形式存储,包含25个特征维度。数据采集过程遵循标准化警务记录规范,通过时间戳校验、地理坐标反查等技术手段确保时空信息的准确性,并采用分类编码体系对犯罪类型、作案手法等定性变量进行标准化处理。
特点
该数据集的核心价值体现在多维度的犯罪特征表征能力上。时空维度上精确至分钟级的REPORT_DAT字段与地理坐标信息,支持微观时空模式分析;分类体系方面,OFFENSE字段采用分级编码方案覆盖百余种犯罪类型,METHOD字段详细记录作案工具与手段。值得注意的是,数据集创新性地关联了行政管理单元(WARD/DISTRICT)与人口统计区域(CENSUS_TRACT),为研究犯罪与社会经济因素的关联提供了交叉分析可能。
使用方法
研究者可通过Python或R语言生态的数据分析工具链进行深度挖掘。建议先使用pandas进行数据清洗,重点处理时空字段的格式转换与缺失值插补。地理空间分析可借助geopandas库将LATITUDE/LONGITUDE转换为GeoDataFrame,结合Folium库实现犯罪热力图可视化。对于犯罪类型分布研究,可利用GROUPBY方法按NEIGHBORHOOD_CLUSTER分组统计OFFENSE字段的频率分布。机器学习应用时,建议将SHIFT、WARD等分类变量进行独热编码后作为预测模型的输入特征。
背景与挑战
背景概述
《2025年犯罪事件》数据集由匿名研究团队于2025年构建,收录了超过6,000起犯罪事件的详细记录。该数据集涵盖地理空间坐标、时间戳、犯罪类型等25个维度的结构化数据,旨在通过时空分析和模式识别技术揭示城市犯罪规律。作为刑事司法领域的重要实证研究资源,其多模态特征为犯罪预测模型的训练提供了关键数据支持,推动了智能警务系统的算法优化。数据集采用开放式授权协议,已被应用于多个城市的治安防控系统效能评估研究。
当前挑战
该数据集面临的领域挑战在于犯罪事件的时空非均衡性分布导致预测模型易出现区域偏差,且犯罪类型标注体系缺乏统一标准影响跨区域研究可比性。数据构建过程中,原始记录的地址模糊描述增加了地理编码难度,警力巡逻密度差异造成的监测盲区也导致数据采集存在选择偏差。犯罪方法字段的高缺失率与邻里集群划分标准的不一致性,进一步加大了跨社区犯罪模式分析的复杂度。
常用场景
经典使用场景
在犯罪学与公共安全研究中,Crime_Incidents_in_2025数据集为分析犯罪时空分布规律提供了关键数据支撑。研究者通过该数据集可深入挖掘不同时段、行政区域及人口统计区域的犯罪密度差异,例如结合SHIFT字段分析昼夜犯罪率变化,或基于WARD字段比较各选区的犯罪类型构成。地理坐标数据与犯罪类型的交叉分析,进一步支持了热点区域识别模型的构建。
解决学术问题
该数据集有效解决了犯罪地理学中空间异质性量化难题,通过精确的经纬度坐标与时间戳,支持了时空立方体等分析模型的应用。其包含的多维度分类变量(如OFFENSE、METHOD)为犯罪类型关联性研究提供了基础,而NEIGHBORHOOD_CLUSTER等字段则助力于社会经济因素与犯罪率关联的因果推断研究,填补了传统犯罪数据缺乏微观地理编码的空白。
衍生相关工作
基于该数据集的空间自相关分析催生了《Urban Crime Pattern Mining with Spatiotemporal Tensor Decomposition》等经典论文,其提供的基准数据被用于验证犯罪预测模型精度。在应用层面,衍生出结合LSTM与GIS技术的犯罪预警系统CRIMEPRED,以及商业安全评估工具SafeScore Pro,后者整合了BID字段与犯罪密度指标。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录