CrimeNERdb

Name: CrimeNERdb
Creator: 马德里自治大学; 马德里理工大学; 阿尔卡拉大学
Published: 2026-03-03 02:12:02
License: 暂无描述

arXiv2026-03-03 更新2026-03-04 收录

下载链接：

https://www.kaggle.com/datasets/jbencina/department-of-justice-20092018-press-releases

下载链接

链接失效反馈

官方服务：

资源简介：

CrimeNERdb是由马德里自治大学等机构联合构建的首个大规模犯罪领域命名实体识别数据集，包含1,568份来自美国司法部新闻稿和全球恐怖主义数据库的真实犯罪文档。该数据集采用双层标注体系，定义了5类粗粒度实体（犯罪、行为者、代理、机构、后勤）和22种细粒度实体，标注总词条数达18,543个。数据经过专业清洗和人工标注，特别支持嵌套实体识别任务，旨在解决犯罪领域标注数据稀缺背景下零样本/小样本NER的挑战，为执法机构信息提取提供基准工具。

CrimeNERdb is the first large-scale named entity recognition (NER) dataset in the criminal domain, jointly constructed by the Autonomous University of Madrid and other institutions. It contains 1,568 real criminal documents sourced from U.S. Department of Justice press releases and the Global Terrorism Database. This dataset adopts a two-tier annotation schema, defining 5 coarse-grained entity categories (crime, actor, agent, institution, and logistics) and 22 fine-grained entity types, with a total of 18,543 annotated tokens. The dataset has undergone professional cleaning and manual annotation, and specifically supports nested entity recognition tasks. It aims to address the challenges of zero-shot and few-shot NER in the criminal domain amid the scarcity of labeled data, and serves as a benchmark tool for information extraction by law enforcement agencies.

提供机构：

马德里自治大学; 马德里理工大学; 阿尔卡拉大学

创建时间：

2026-03-03

搜集汇总

数据集介绍

构建方式

在犯罪信息抽取领域，高质量标注数据的稀缺长期制约着相关自然语言处理技术的发展。CrimeNERdb的构建过程体现了严谨的数据采集与处理策略，其语料主要源自两个权威公开来源：美国司法部2009年至2018年的新闻稿，以及全球恐怖主义数据库2021年的事件描述。为确保数据质量与标注可行性，研究团队对原始文本进行了预处理，筛选出长度在100至500字符之间的文档，并清除了噪声文本，最终形成了超过1500份文档的集合。标注工作采用Doccano工具进行，遵循一套精细的双层实体类型体系，不仅标注了粗粒度类别，还深入定义了细粒度子类，并支持嵌套实体的标注，从而为犯罪领域的命名实体识别任务提供了结构清晰、信息丰富的基准数据。

特点

CrimeNERdb的核心特点在于其针对犯罪领域设计的、层次化的实体类型体系。该数据集定义了犯罪、行为者、执法者、机构与后勤五大粗粒度实体类别，并进一步细分为总计22个精细类别，如将“犯罪”细分为恐怖主义、欺诈、凶杀等，将“行为者”区分为犯罪个人、犯罪组织等。这种设计显著增强了模型对犯罪场景中复杂语义关系的刻画能力。此外，数据集涵盖了从司法公告到恐怖袭击报告的真实文本，确保了数据的现实代表性。其超过1500份文档的规模，以及包含嵌套实体的标注格式，使其不仅适用于常规命名实体识别任务，也为零样本与小样本学习，乃至嵌套实体识别研究提供了宝贵的资源。

使用方法

该数据集主要服务于犯罪文档分析场景下的命名实体识别研究，尤其侧重于零样本与小样本学习范式。使用者可以按照论文中描述的评估框架，将数据集划分为支持集与查询集，以构建不同的N-way-K-shot任务场景，用于评估模型在仅有极少或完全没有目标领域标注样本情况下的泛化能力。研究人员可利用该数据集微调或评估各类先进的预训练语言模型、专用的少样本NER模型（如CONTaiNER）以及通用大语言模型（如GPT系列）。通过在其定义的五类粗粒度或22类细粒度实体上进行性能测试，能够有效衡量模型对犯罪领域特定实体，尤其是未见犯罪类型的识别与分类精度，从而推动面向低资源领域的信息抽取技术发展。

背景与挑战

背景概述

在自然语言处理领域，犯罪相关文档的信息提取对于执法机构至关重要。CrimeNERdb数据集由Miguel Lopez-Duran等人于2026年创建，旨在解决犯罪领域命名实体识别任务中标注数据匮乏的问题。该数据集包含超过1.5K份标注文档，源自美国司法部新闻稿和全球恐怖主义数据库的真实报告，定义了5种粗粒度实体类型和22种细粒度实体类别。其核心研究问题聚焦于零样本和少样本学习场景下的犯罪实体识别，为犯罪文档分析提供了首个大规模标注基准，推动了领域特定信息提取技术的发展。

当前挑战

CrimeNERdb面临的挑战主要体现在两个方面：在领域问题层面，犯罪实体识别需应对犯罪类型多样且语境复杂的难题，例如恐怖主义与普通犯罪实体在语义上的细微差别，以及跨地域执法机构名称的泛化识别；在构建过程中，数据标注面临实体嵌套与边界模糊的困难，如‘哥伦比亚特区总检察长’中法律主体与地理实体的重叠标注。此外，数据稀缺性导致标注成本高昂，且需平衡不同犯罪类型在数据集中的代表性，例如恐怖攻击与日常犯罪报告的样本均衡。

常用场景

经典使用场景

在犯罪学与计算语言学的交叉领域，CrimeNERdb数据集为命名实体识别任务提供了关键资源。该数据集主要应用于零样本和少样本学习场景，研究者利用其超过1.5千份标注文档，训练模型从犯罪相关文本中自动识别实体。这些文档源自美国司法部新闻稿和全球恐怖主义数据库的真实报告，涵盖了从恐怖主义到金融欺诈等多种犯罪类型，使得模型能够在标注数据稀缺的情况下，仍能准确提取犯罪者、执法机构及案件细节等结构化信息。

衍生相关工作

围绕CrimeNERdb，学术界衍生出一系列聚焦低资源领域实体识别的研究。例如，基于该数据集的零样本学习框架被应用于优化大型语言模型在犯罪文档上的泛化性能；同时，研究者借鉴其分层标注体系，开发了针对网络安全、法律文书等垂直领域的细粒度实体识别模型。这些工作进一步拓展了少样本学习在安全信息提取中的应用边界，促进了跨领域实体识别技术的迁移与创新。

数据集最近研究