aymansharara/CrimeX
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/aymansharara/CrimeX
下载链接
链接失效反馈官方服务:
资源简介:
CRIMEX v1 是一个基于洛杉矶开放犯罪数据的大规模犯罪事件数据集,通过添加多个特征层(如时间情报、行为分析、上下文风险信号等)将原始事件记录转化为行为情报数据集。该数据集设计用于机器学习、犯罪分析和研究应用。CRIMEX v2 则是一个基于公开观察名单和犯罪数据来源的人员级情报数据集,扩展了 CRIMEX 框架,从事件级分析转向人员级情报建模,包括结构化人员档案、犯罪感知情报特征等。
CRIMEX v1 is a large-scale enriched criminal incident dataset derived from the Los Angeles Open Crime Data, transforming raw incident records into a behavioral intelligence dataset with multiple feature layers such as temporal intelligence, behavioral profiling, and contextual risk signals. It is designed for machine learning, crime analytics, and research applications. CRIMEX v2 is a person-level intelligence dataset built from public watchlists and criminal data sources, extending the CRIMEX framework from incident-level analysis to actor-level intelligence modeling, featuring structured actor profiles and crime-aware intelligence features.
提供机构:
aymansharara
搜集汇总
数据集介绍

构建方式
CrimeX数据集由两个核心版本构成,分别面向犯罪事件与行为人层面的智能分析。CrimeX v1源自洛杉矶开放犯罪数据,通过引入时间智能、行为画像、情境风险信号、图启发式特征以及数据质量与可解释性指标等多层特征工程,将原始事件记录转化为行为智能数据集。CrimeX v2则基于OpenSanctions犯罪数据集,从公开监控名单与犯罪数据中提取行为人档案,经过身份特征清洗、犯罪本体分类、来源可靠性评估、时序与地理上下文融合,构建多来源行为人智能特征,并设计可解释的风险评分与调查优先级别划分体系。整个流水线采用模块化Python脚本与Notebook实现,确保完全可复现。
特点
该数据集的核心特色在于其多层次、可解释的智能分析架构。CrimeX v1包含超过100万条记录与150余项特征,涵盖作案手法复杂度、多步行为指标、日常活动理论代理特征以及环境压力信号等独到设计,同时嵌入图启发的行为签名键与中心性近似值,为犯罪模式挖掘提供结构性视角。CrimeX v2则聚焦于行为人层面,创新性地分离了风险评分与调查优先级,引入多重身份复杂度指数、跨国活动标识、来源风险权重及监察清单标记,并生成人类可读的风险解释文本,例如“严重犯罪|监控名单来源|跨境活动”,极大提升了分析结果的可操作性与透明度。
使用方法
该数据集适用于多种犯罪科学与人工智能研究场景,包括犯罪预测建模、风险评分系统开发、行为模式分析、图基犯罪分析及异常检测等。用户可通过HuggingFace平台加载Parquet格式数据:使用`crimex_v1_la_incident_behavioral_intelligence.parquet`获取CrimeX v1事件级数据,或加载`crimex_actor_intelligence.parquet`用于CrimeX v2行为人智能分析。数据已预划分完整配置(CrimeX_full与CrimeX_actor),支持直接用于机器学习模型的训练与评估。需注意,数据使用需遵循原始来源许可协议,CrimeX v1遵循洛杉矶开放数据条款,v2则受OpenSanctions的CC BY-NC 4.0许可证约束。
背景与挑战
背景概述
CrimeX数据集由数据科学家Ayman Sharara及其团队创建,旨在将原始犯罪记录转化为可供机器学习与犯罪分析应用的智能化行为数据集。该数据集包含两个核心版本:CrimeX v1聚焦于洛杉矶市的案件级犯罪事件,通过引入时间智能、行为画像、情境风险信号、图特征以及可解释性指标等150余种特征,将约100万条原始犯罪记录升级为富语义的行为智能数据集;CrimeX v2则转向行为人层面,整合OpenSanctions等公开观察名单与犯罪数据源,构建包含身份特征、犯罪分类、来源可靠度、时间地理背景及多层级风险评分的结构化行为档案,涵盖超过17万条行为人记录。该数据集以开源形式发布,旨在推动犯罪预测建模、异常检测、可解释人工智能及图分析等研究领域的发展,为执法分析与学术探索提供了高信息密度的基准数据资源。
当前挑战
CrimeX数据集所解决的领域挑战主要集中在犯罪分析与预测建模中的数据稀疏性、特征表征不足以及可解释性缺失等问题。传统犯罪数据多局限于案件层面的基础描述,缺乏对犯罪模式、行为人行为特征及情境风险的深层刻画,限制了模型在风险评分、异常行为识别等任务中的表现。在构建过程中,该数据集面临多重挑战:首先是数据来源的异构性与质量不一致(如公开犯罪记录存在缺失值、坐标不完整),需通过地理编码与启发式填补方法进行复原;其次,行为人级数据依赖公开观察名单,覆盖范围与信息完整性因国家与地区差异而参差不齐,部分犯罪描述需通过规则或文本挖掘方法进行清洗与分类映射;此外,图特征的构建需从原始表格数据中抽象出近似连接性与中心性指标,但受限于缺乏显式实体关系网络,这些特征仅能以启发式代理实现,精度与完整性存在局限。
常用场景
经典使用场景
在犯罪分析与公共安全领域,CrimeX数据集为研究者提供了从原始犯罪记录向行为智能特征转化的系统性工具。其经典使用场景聚焦于利用丰富的多维度特征——包括时间智能、行为画像、情境风险信号和图启发式特征——构建机器学习模型,以预测犯罪事件的发生概率、识别异常行为模式或为执法部门提供可解释的风险评分。通过引入超过150个特征,该数据集尤其适用于犯罪热点探测、系列案件关联分析以及基于日常活动理论的实证研究。
解决学术问题
CrimeX数据集直面犯罪学与人工智能交叉领域的若干核心学术挑战。它通过提供行为复杂性评分、犯罪手法代理变量和图连接性近似特征,解决了传统犯罪数据缺乏结构化行为表征的问题,使研究者能够量化犯罪模式、建模罪犯策略演变。此外,数据集内置的解释性层和风险编码体系,为可解释人工智能在敏感执法场景中的可信应用提供了实证基础,推动了从黑箱预测向可理解决策支持的范式转变。
衍生相关工作
CrimeX数据集的发布催生了多项关联研究工作。基于其行为智能特征体系,衍生工作包括构建跨城市犯罪迁移图模型,用于分析犯罪手法的地理扩散路径;开发融合图神经网络的嫌疑人实体解析方法,实现多源情报中同一人物的跨数据集链接。另有研究利用其风险解释性层训练可解释的犯罪预测代理模型,探索将结构化行为特征与自然语言生成的案情报告相结合的新型分析管线。这些工作共同推动了行为驱动型犯罪智能系统的发展。
以上内容由遇见数据集搜集并总结生成



