five

chicago-crime|犯罪数据分析数据集|城市安全数据集

收藏
huggingface2024-10-04 更新2024-12-12 收录
犯罪数据分析
城市安全
下载链接:
https://huggingface.co/datasets/tppllm/chicago-crime
下载链接
链接失效反馈
资源简介:
该数据集包含从2022年1月1日至2023年12月31日在芝加哥报告的犯罪事件。它包括4,033个序列,涵盖202,333个事件,涉及20种犯罪类型。数据来源于芝加哥数据门户,并受其使用条款的约束。详细的预处理步骤可以在相关论文中找到。
创建时间:
2024-10-04
原始信息汇总

Chicago Crime Dataset

概述

  • 数据来源: 芝加哥数据门户(Chicago Data Portal)
  • 数据时间范围: 2022年1月1日至2023年12月31日
  • 数据规模: 4,033个序列,包含202,333个事件
  • 犯罪类型数量: 20种

数据许可

  • 许可类型: other
  • 许可名称: chicago-data-portal
  • 许可链接: https://portal.chicagopolice.org/portal/page/portal/ClearPath

语言

  • 语言: 英语(en)

数据规模分类

  • 规模分类: 1K<n<10K

数据预处理

  • 预处理方法: 详细的数据预处理步骤可在此论文中找到。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chicago Crime数据集构建于2022年1月1日至2023年12月31日期间,涵盖了芝加哥市报告的犯罪事件。数据来源于芝加哥数据门户(Chicago Data Portal),并通过详细的数据预处理步骤进行整理。这些步骤在TPP-LLM和TPP-LLM-Embedding两篇论文中得到了详细描述,确保了数据的准确性和一致性。数据集包含4,033个序列,共计202,333个事件,涉及20种犯罪类型。
特点
该数据集的特点在于其广泛的时间跨度和多样化的犯罪类型。数据涵盖了两年内的犯罪事件,提供了丰富的时序信息,适用于时间点过程(Temporal Point Process)的研究。此外,数据集中的事件类型多样,涵盖了从轻微犯罪到严重犯罪的多种类别,为研究者提供了全面的犯罪分析基础。数据的来源和处理过程透明,确保了其可靠性和可重复性。
使用方法
Chicago Crime数据集可用于多种研究场景,特别是时间点过程建模和犯罪模式分析。研究者可以通过该数据集探索犯罪事件的时间分布、空间分布及其相互关系。数据集的使用方法包括数据加载、预处理和模型训练等步骤,具体操作可参考TPP-LLM和TPP-LLM-Embedding论文中的详细说明。使用该数据集时,建议引用相关论文以支持研究的学术性和透明性。
背景与挑战
背景概述
芝加哥犯罪数据集(Chicago Crime Dataset)由芝加哥数据门户(Chicago Data Portal)提供,涵盖了2022年1月1日至2023年12月31日期间芝加哥市报告的犯罪事件。该数据集包含4,033个序列,涉及202,333个事件,涵盖20种犯罪类型。数据集的主要研究人员包括Zefang Liu和Yinzhu Quan,其研究背景源于对时间点过程(Temporal Point Processes, TPP)的建模与高效检索的需求。相关研究成果发表于2024年的两篇论文中,分别探讨了基于大语言模型的时间点过程建模以及从文本描述中高效检索时间事件序列的方法。该数据集为犯罪分析、公共安全研究以及时间序列建模提供了重要的数据支持,推动了相关领域的研究进展。
当前挑战
芝加哥犯罪数据集在解决犯罪事件分析与预测的领域问题时,面临多重挑战。首先,犯罪事件具有高度的时间与空间异质性,如何准确建模这些复杂的时间点过程是一个核心难题。其次,数据集中包含的犯罪类型多样,如何有效分类与识别不同类型的犯罪事件,同时避免数据不平衡问题,是另一个重要挑战。在数据构建过程中,原始数据的清洗与预处理也面临挑战,例如如何处理缺失值、噪声数据以及确保数据的时空一致性。此外,如何从文本描述中高效提取并检索犯罪事件的时间序列信息,也是数据集构建中的关键问题。这些挑战不仅影响了数据集的构建质量,也对后续的模型训练与应用提出了更高的要求。
常用场景
经典使用场景
Chicago Crime数据集广泛应用于犯罪模式分析和预测研究中。研究者利用该数据集中的犯罪事件序列,结合时间点过程模型,深入挖掘犯罪事件的时间分布特征和空间关联性。通过分析不同犯罪类型的时间序列数据,研究者能够识别出犯罪热点区域和高发时段,进而为城市安全管理和警力部署提供科学依据。
解决学术问题
该数据集为解决犯罪预测和时空模式分析中的关键问题提供了重要支持。通过其丰富的犯罪事件序列数据,研究者能够开发出高效的时空预测模型,解决传统方法在复杂时空数据建模中的局限性。此外,该数据集还为研究犯罪事件的因果关系和影响因素提供了数据基础,推动了犯罪学领域的定量研究进展。
衍生相关工作
该数据集衍生了一系列经典研究工作,特别是在时间点过程模型和时空数据分析领域。例如,基于该数据集的研究提出了TPP-LLM模型,通过高效微调大语言模型来建模时间点过程,显著提升了犯罪事件序列的预测精度。此外,相关研究还开发了高效的文本描述检索方法,为从非结构化文本中提取犯罪事件序列提供了新的技术路径。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

新能源汽车风险评分数据集

风险评分数据集是基于车辆充电行为和车辆状态数据,结合保司现有的承保理赔数据,打破了传统汽车保险的定价方法,用车辆大数据赋能车辆保险经营。大数据风险评分作为保险公司新型核保工具,与传统车险定价相比,增加模型因子的解释维度,提升模型稳定性和区分度。大数据风险评分可以合理反映车辆的风险概率和风险成本,体现保费的公平,改善驾驶行为,促进安全驾驶等。保险公司在应用时通过输入相关车辆数据以及核保数据,通过隐私计算平台技术,由计算模型调用充电行为和车辆行为特征数据,仅返回车辆风险评分结果给到保险公司,达到数据可用不可见的目的,保险公司依据车辆风险评分结果进行核保定价。

北京市数据知识产权 收录