Annotated Portuguese Criminal-Related Corpus

github2021-06-30 更新2024-05-31 收录

下载链接：

https://github.com/goncalofcarnaz/Annotated-Corpus-of-Criminal-Related-Portuguese-Documents

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在为机器学习和自然语言处理任务提供支持，包含从公开和私人来源收集的犯罪相关数据，如刑事调查报告和刑事新闻。

This dataset is designed to support machine learning and natural language processing tasks, encompassing crime-related data collected from both public and private sources, such as criminal investigation reports and criminal news.

创建时间：

2021-05-08

原始信息汇总

数据集概述

数据集名称

Annotated Portuguese Criminal-Related Corpus

数据来源

Criminal Investigation Reports: 包含最终判决且不再接受上诉的案件信息。
Criminal News: 在线新闻报纸中的犯罪相关报道。
PGdLisboa: 来自Procuradoria-Geral Distrital de Lisboa网站的犯罪报告。

数据集目的

用于机器学习和自然语言处理任务。

数据集结构

Dataset
- Data collection
  - CrimeNews: 在线新闻报纸中收集的犯罪相关数据集。
  - PGrLisboa: 来自Procudoria Geral da Republica de Lisboa的开放源新闻收集的犯罪相关数据集。
  - Criminal Investigation Reports: 来自刑事调查报告的数据集，包含匿名处理后的名称、地点和日期。
- NER
  - Common: 用于NER分类器的训练和测试数据集，包括人物、地点、组织、日期和数字等实体，以及使用Naive Bayes、Perceptron和MaxEnt三种机器学习方法的NER分类器。
  - Narcotis: 用于NER分类器的训练和测试数据集，专注于毒品相关实体，以及相应的NER分类器。

作者信息

Gonçalo Carnaz: 计算机科学博士，研究兴趣包括图数据库、自然语言处理、信息提取和机器学习。
Vitor Beires Nogueira: 计算机科学博士，研究兴趣包括知识表示的声明性方法、自然语言处理和物联网。
Mário Antunes: 计算机科学博士，研究兴趣包括网络安全、信息安全、网络和系统管理以及机器学习。

相关出版物

Carnaz G, Antunes M, Nogueira VB. An Annotated Corpus of Crime-Related Portuguese Documents for NLP and Machine Learning Processing. Data. 2021; 6(7):71.
Carnaz G, Nogueira VB, Antunes M. A Graph Database Representation of Portuguese Criminal-Related Documents. Informatics. 2021; 8(2):37.
其他相关研究论文。

搜集汇总

数据集介绍

构建方式

Annotated Portuguese Criminal-Related Corpus 数据集的构建基于多个权威来源的犯罪相关文档。数据集主要从刑事调查报告、在线新闻报纸以及葡萄牙里斯本地区检察院的公开新闻中提取信息。刑事调查报告包含了案件调查过程中收集的证人、嫌疑人、警察调查员以及事实描述等信息，且所有案件均已结案并不再上诉。在线新闻则由调查记者撰写，内容涉及已结案的犯罪案件。这些文档经过匿名化处理，确保个人隐私得到保护。

特点

该数据集的特点在于其丰富的标注信息，涵盖了人名、地点、组织、日期和数值等命名实体。此外，数据集还专门针对毒品相关案件提供了额外的命名实体标注。数据集的结构清晰，分为犯罪新闻、检察院新闻和刑事调查报告三个主要部分，便于研究人员根据需求选择使用。数据集的标注质量高，适用于自然语言处理和机器学习任务，尤其是在命名实体识别和信息提取领域具有重要价值。

使用方法

Annotated Portuguese Criminal-Related Corpus 数据集的使用方法灵活多样。研究人员可以通过数据集中的标注信息训练和测试命名实体识别模型，支持朴素贝叶斯、感知器和最大熵等多种机器学习方法。数据集的结构化设计使得用户能够轻松访问不同类别的数据，例如犯罪新闻、检察院新闻和刑事调查报告。此外，数据集还提供了针对毒品相关案件的专门标注，为特定领域的研究提供了便利。用户可以根据研究需求选择相应的数据子集，进行模型训练、验证和测试。

背景与挑战

背景概述

Annotated Portuguese Criminal-Related Corpus 是由葡萄牙埃武拉大学的Gonçalo Carnaz、Vitor Beires Nogueira和Mário Antunes等研究人员于2021年创建的一个专注于葡萄牙语犯罪相关文档的标注语料库。该数据集的主要目标是支持机器学习和自然语言处理任务，特别是在犯罪调查和新闻报道领域。数据来源包括刑事调查报告、在线新闻以及葡萄牙里斯本地区检察院的公开新闻。该语料库的构建不仅为研究者提供了丰富的犯罪相关文本数据，还通过命名实体识别（NER）等技术，推动了犯罪事件的知识表示和信息提取研究。其相关研究成果已在多个国际会议和期刊上发表，显著提升了犯罪文本分析领域的研究水平。

当前挑战

Annotated Portuguese Criminal-Related Corpus 在构建和应用过程中面临多重挑战。首先，犯罪相关文本的多样性和复杂性使得数据标注和实体识别任务尤为困难，尤其是在处理人名、地点、组织等命名实体时，需要高精度的标注和模型训练。其次，数据来源的多样性和格式不统一增加了数据清洗和整合的难度，特别是在从刑事调查报告和新闻文章中提取信息时，需确保数据的准确性和一致性。此外，由于犯罪文本涉及敏感信息，数据匿名化处理成为一项重要挑战，如何在保护隐私的同时保持数据的可用性，是构建过程中必须解决的问题。这些挑战不仅影响了数据集的构建效率，也对后续的机器学习和自然语言处理任务提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，Annotated Portuguese Criminal-Related Corpus 数据集主要用于训练和评估命名实体识别（NER）模型。该数据集包含了从刑事调查报告和犯罪新闻中提取的文本，涵盖了人物、地点、组织、日期和数字等命名实体。通过该数据集，研究人员可以构建和优化NER分类器，提升模型在特定领域文本中的实体识别能力。

实际应用

在实际应用中，Annotated Portuguese Criminal-Related Corpus 数据集被广泛用于法律和执法领域。例如，执法机构可以利用该数据集训练的NER模型，自动从大量的刑事调查报告中提取关键信息，如嫌疑人、地点和时间等，从而加速案件分析和决策过程。此外，新闻媒体也可以利用该模型从犯罪新闻中提取结构化信息，提高新闻报道的效率和准确性。

衍生相关工作

基于该数据集，研究人员已经开展了多项经典工作。例如，Gonçalo Carnaz等人开发了基于图数据库的犯罪相关文档表示方法，进一步推动了犯罪文本的知识表示和推理研究。此外，该数据集还被用于构建自动化的刑事报告分析系统，显著提高了执法机构处理犯罪数据的效率。这些工作不仅扩展了数据集的应用范围，也为犯罪文本分析领域提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集