tppllm/chicago-crime

Name: tppllm/chicago-crime
Creator: tppllm
Published: 2025-10-28 16:25:11
License: 暂无描述

Hugging Face2025-10-28 更新2025-04-26 收录

下载链接：

https://hf-mirror.com/datasets/tppllm/chicago-crime

下载链接

链接失效反馈

官方服务：

资源简介：

芝加哥犯罪数据集包含从2022年1月1日至2023年12月31日报告的芝加哥犯罪事件。该数据集包括4,033个序列，涵盖20种不同类型的202,333个事件。数据来源于芝加哥数据门户，遵循特定的使用条款。数据预处理细节可以在相关论文中找到。

This dataset contains reported crime incidents in Chicago from January 1, 2022, to December 31, 2023. It includes 4,033 sequences with 202,333 events across 20 crime types. The data is sourced from the Chicago Data Portal under specific Terms of Use. Details of the data preprocessing can be found in related papers.

提供机构：

tppllm

搜集汇总

数据集介绍

构建方式

该数据集源自芝加哥数据门户，聚焦于2022年1月1日至2023年12月31日期间报告的犯罪事件。构建过程中，研究者从官方原始数据中提取了4033条事件序列，涵盖202333个具体事件，涉及20种犯罪类型。数据预处理步骤严格遵循TPP-LLM与TPP-Embedding两篇学术论文中的方法论，通过对原始记录的清洗、标准化与序列化处理，形成了适用于时序点过程建模的结构化数据集。最新版本还补充了以秒为单位的三个时间戳字段，包括事件发生时间、自起始时间及自上一事件时间，以增强数据的时间维度表达能力。

特点

该数据集的核心特点在于其精心设计的事件序列结构，每条序列包含连续发生的犯罪事件，为时序点过程研究提供了真实世界的应用场景。数据覆盖20种犯罪类型，展现了丰富的类别多样性，有助于模型学习不同类型事件的时空分布规律。此外，数据集在时间维度上具备高精度，新增的秒级时间戳字段进一步提升了事件时序的细粒度，使其能够支持对事件间间隔与整体时间模式的深入分析。来源于官方公开数据的背景也确保了数据本身的真实性与权威性。

使用方法

使用时，研究人员可直接加载该数据集中的事件序列，用于训练或评估基于时序点过程的模型，如TPP-LLM等大语言模型微调框架。数据集提供的三种时间戳字段使得用户能够灵活选择时间表示方式，例如直接使用绝对时间或相对间隔进行建模。对于希望复现原始论文结果的用户，可通过提交历史中的早期快照获取初始版本数据。建议在学术引用时标注相关论文，以遵循数据使用规范并促进研究的可重复性。

背景与挑战

背景概述

芝加哥犯罪数据集（Chicago Crime Dataset）由研究人员Zefang Liu与Yinzhu Quan于2024年创建，旨在推动时序点过程（Temporal Point Processes）与大规模语言模型（LLMs）的交叉研究。该数据集源自芝加哥数据门户（Chicago Data Portal），涵盖了2022年1月1日至2023年12月31日期间报告的犯罪事件，包含4,033条序列、202,333个事件实例，覆盖20种犯罪类型。作为TPP-LLM与TPP-Embedding两项研究的基础数据资源，它为探索如何通过高效微调大语言模型来建模复杂时序事件序列提供了关键支撑。该数据集的问世不仅丰富了公共安全领域的时序分析素材，更促进了自然语言处理与犯罪预测研究的深度融合，对事件序列建模、城市计算等方向产生了显著影响。

当前挑战

该数据集面临的核心挑战包括：第一，时序点过程建模的领域难题——犯罪事件的发生具有高度非均匀性、时空依赖性与多类型交织特征，传统参数化模型难以捕捉其复杂动态，而大语言模型虽具备强大序列学习能力，但在事件时间戳的精确建模与事件类型的长程依赖关系上仍存在瓶颈。第二，构建过程中的数据挑战——原始数据需经过严格清洗与结构化处理，包括将非结构化警局报告转化为统一的事件序列格式，确保时间戳的准确性与事件类型的归一化；同时，数据来源的持续更新要求维护多个版本快照以保障研究可复现性，这对数据管线的鲁棒性与版本管理提出了较高要求。

常用场景

经典使用场景

芝加哥犯罪数据集（Chicago Crime Dataset）作为时间点过程（Temporal Point Processes）领域的重要基准，其经典使用场景聚焦于对城市犯罪事件序列的建模与预测。该数据集收录了2022年至2024年间芝加哥市报告的20类犯罪事件，包含超过4000条事件序列和20万条时间戳记录。研究者常利用该数据集构建基于大语言模型（LLM）的时间点过程模型，通过微调预训练语言模型来捕捉犯罪事件的时间动态与类型关联，从而实现对未来犯罪事件发生时刻与类别的精准预测。

衍生相关工作

该数据集催生了多项具有影响力的学术工作。其中，TPP-LLM模型率先将大语言模型引入时间点过程框架，通过参数高效微调技术实现了对犯罪事件序列的精准建模，为时序预测领域提供了全新范式。TPP-Embedding研究则聚焦于从文本描述中检索时序事件序列，探索了跨模态信息对齐的可行性。此外，基于该数据集的工作还涉及事件序列的表示学习、多类型事件的联合预测以及时间点过程的因果推断等方向，持续推动着城市计算与时空数据挖掘领域的理论创新。

数据集最近研究