chicago-crime|犯罪数据分析数据集|城市安全数据集

huggingface2024-10-04 更新2024-12-12 收录

犯罪数据分析

城市安全

下载链接：

https://huggingface.co/datasets/tppllm/chicago-crime

下载链接

链接失效反馈

资源简介：

该数据集包含从2022年1月1日至2023年12月31日在芝加哥报告的犯罪事件。它包括4,033个序列，涵盖202,333个事件，涉及20种犯罪类型。数据来源于芝加哥数据门户，并受其使用条款的约束。详细的预处理步骤可以在相关论文中找到。

创建时间：

2024-10-04

原始信息汇总

Chicago Crime Dataset

概述

数据来源: 芝加哥数据门户（Chicago Data Portal）
数据时间范围: 2022年1月1日至2023年12月31日
数据规模: 4,033个序列，包含202,333个事件
犯罪类型数量: 20种

数据许可

许可类型: other
许可名称: chicago-data-portal
许可链接: https://portal.chicagopolice.org/portal/page/portal/ClearPath

语言

语言: 英语（en）

数据规模分类

规模分类: 1K<n<10K

数据预处理

预处理方法: 详细的数据预处理步骤可在此论文中找到。

AI搜集汇总

数据集介绍

构建方式

Chicago Crime数据集构建于2022年1月1日至2023年12月31日期间，涵盖了芝加哥市报告的犯罪事件。数据来源于芝加哥数据门户（Chicago Data Portal），并通过详细的数据预处理步骤进行整理。这些步骤在TPP-LLM和TPP-LLM-Embedding两篇论文中得到了详细描述，确保了数据的准确性和一致性。数据集包含4,033个序列，共计202,333个事件，涉及20种犯罪类型。

特点

该数据集的特点在于其广泛的时间跨度和多样化的犯罪类型。数据涵盖了两年内的犯罪事件，提供了丰富的时序信息，适用于时间点过程（Temporal Point Process）的研究。此外，数据集中的事件类型多样，涵盖了从轻微犯罪到严重犯罪的多种类别，为研究者提供了全面的犯罪分析基础。数据的来源和处理过程透明，确保了其可靠性和可重复性。

使用方法

Chicago Crime数据集可用于多种研究场景，特别是时间点过程建模和犯罪模式分析。研究者可以通过该数据集探索犯罪事件的时间分布、空间分布及其相互关系。数据集的使用方法包括数据加载、预处理和模型训练等步骤，具体操作可参考TPP-LLM和TPP-LLM-Embedding论文中的详细说明。使用该数据集时，建议引用相关论文以支持研究的学术性和透明性。

背景与挑战

背景概述

芝加哥犯罪数据集（Chicago Crime Dataset）由芝加哥数据门户（Chicago Data Portal）提供，涵盖了2022年1月1日至2023年12月31日期间芝加哥市报告的犯罪事件。该数据集包含4,033个序列，涉及202,333个事件，涵盖20种犯罪类型。数据集的主要研究人员包括Zefang Liu和Yinzhu Quan，其研究背景源于对时间点过程（Temporal Point Processes, TPP）的建模与高效检索的需求。相关研究成果发表于2024年的两篇论文中，分别探讨了基于大语言模型的时间点过程建模以及从文本描述中高效检索时间事件序列的方法。该数据集为犯罪分析、公共安全研究以及时间序列建模提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

芝加哥犯罪数据集在解决犯罪事件分析与预测的领域问题时，面临多重挑战。首先，犯罪事件具有高度的时间与空间异质性，如何准确建模这些复杂的时间点过程是一个核心难题。其次，数据集中包含的犯罪类型多样，如何有效分类与识别不同类型的犯罪事件，同时避免数据不平衡问题，是另一个重要挑战。在数据构建过程中，原始数据的清洗与预处理也面临挑战，例如如何处理缺失值、噪声数据以及确保数据的时空一致性。此外，如何从文本描述中高效提取并检索犯罪事件的时间序列信息，也是数据集构建中的关键问题。这些挑战不仅影响了数据集的构建质量，也对后续的模型训练与应用提出了更高的要求。

常用场景

经典使用场景

Chicago Crime数据集广泛应用于犯罪模式分析和预测研究中。研究者利用该数据集中的犯罪事件序列，结合时间点过程模型，深入挖掘犯罪事件的时间分布特征和空间关联性。通过分析不同犯罪类型的时间序列数据，研究者能够识别出犯罪热点区域和高发时段，进而为城市安全管理和警力部署提供科学依据。

解决学术问题

该数据集为解决犯罪预测和时空模式分析中的关键问题提供了重要支持。通过其丰富的犯罪事件序列数据，研究者能够开发出高效的时空预测模型，解决传统方法在复杂时空数据建模中的局限性。此外，该数据集还为研究犯罪事件的因果关系和影响因素提供了数据基础，推动了犯罪学领域的定量研究进展。

衍生相关工作

该数据集衍生了一系列经典研究工作，特别是在时间点过程模型和时空数据分析领域。例如，基于该数据集的研究提出了TPP-LLM模型，通过高效微调大语言模型来建模时间点过程，显著提升了犯罪事件序列的预测精度。此外，相关研究还开发了高效的文本描述检索方法，为从非结构化文本中提取犯罪事件序列提供了新的技术路径。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Hang Seng Index

恒生指数（Hang Seng Index）是香港股市的主要股票市场指数，由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司，反映了香港股市的整体表现。

www.hsi.com.hk 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

LUNA16

LUNA16（肺结节分析）数据集是用于肺分割的数据集。它由 1,186 个肺结节组成，在 888 次 CT 扫描中进行了注释。

OpenDataLab 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。