PersoSEG corpus

github2023-07-26 更新2024-05-31 收录

下载链接：

https://github.com/UnB-KnEDLe/persoseg-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由联邦区官方公报（OGFD）中的人员行为组成，用于文档分割任务。数据集经过手动标注，包含与人员相关的行为信息，如行为类型、文本内容、发布日期等。

This dataset comprises human behaviors extracted from the Official Gazette of the Federal District (OGFD), intended for document segmentation tasks. It has been manually annotated and includes information related to human behaviors, such as behavior types, textual content, and publication dates.

创建时间：

2022-10-29

原始信息汇总

数据集概述

数据来源

数据提取自Anotações - Atos de Pessoal数据集，使用DODFMiner从Diário Oficial do Distrito Federal (DODF)提取数据，并由KnEDLe项目的志愿者手动标注。

数据集信息

包含与人员相关行为的详细信息，这些行为作为文档分段的章节。
数据集由KnEDLe项目成员验证。

属性信息

属性	描述
type_act	文本所属的行为类型
text	标注的行为文本
n_dodf	DODF的版本号
day	文档发布日期
month	文档发布月份
year	文档发布年份

版本信息

版本0

大小: 9058行

包含的行为及其标签如下：

行为	标签
Abono de Permanênica	Ato_Abono_Permanencia
Cessão	Ato_Cessao
Exoneração Comissionado	Ato_Exoneracao_Comissionado
Exoneração Efetivo	Ato_Exoneracao_Efetivo
Nomeação Comissionado	Ato_Nomeacao_Comissionado
Nomeação Efetivo	Ato_Nomeacao_Efetivo
Retificação Comissionado	Ato_Retificacao_Comissionado
Retificação Efetivo	Ato_Retificacao_Efetivo
Reversão	Ato_Reversao
Substituição	Ato_Substituicao
Tornado Sem Efeito Apo	Ato_Tornado_Sem_Efeito_Apo
Tornado Sem Efeito Exo/Nom	Ato_Tornado_Sem_Efeito_Exo_Nom

各标签数量统计：

类型	数量
Ato_Abono_Permanencia	134
Ato_Cessao	265
Ato_Exoneracao_Comissionado	2009
Ato_Exoneracao_Efetivo	241
Ato_Nomeacao_Comissionado	2313
Ato_Nomeacao_Efetivo	46
Ato_Retificacao_Comissionado	198
Ato_Retificacao_Efetivo	1214
Ato_Reversao	58
Ato_Substituicao	2312
Ato_Tornado_Sem_Efeito_Apo	20
Ato_Tornado_Sem_Efeito_Exo_Nom	248
Total	9058

版本1

大小: 9058行
与版本0的区别：版本1的标签名称为英文。

包含的行为及其标签如下：

行为	标签
Permanence Allowance	Act_Permanence_Allowance
Cession	Act_Cession
Dismissal of Commissioned Position	Act_Dismissal_Commissioned
Dismissal of Effective Position	Act_Dismissal_Effective
Nomination of Commissioned Position	Act_Nomination_Commissioned
Nomination of Effective Position	Act_Nomination_Effective
Rectification of Comissioned Appointment	Act_Rectification_Comissioned
Rectification of Effective Appointment	Act_Rectification_Effective
Reversal	Act_Reversal
Substitution	Act_Substitution
Rendered Ineffective Retirement Acts	Act_Rendered_Ineffective_Retirement
Rendered Ineffective Dismissal or Nomination Acts	Act_Rendered_Ineffective_Dismissal_Nomination

各标签数量统计：

类型	数量
Act_Permanence_Allowance	134
Act_Cession	265
Act_Dismissal_Commissioned	2009
Act_Dismissal_Effective	241
Act_Nomination_Commissioned	2313
Act_Nomination_Effective	46
Act_Rectification_Comissioned	198
Act_Rectification_Effective	1214
Act_Reversal	58
Act_Substitution	2312
Act_Rendered_Ineffective_Retirement	20
Act_Rendered_Ineffective_Dismissal_Nomination	248
Total	9058

文件信息

版本0
- CSV文件链接：CSV (Public)
版本1
- CSV文件链接：CSV (Public)

搜集汇总

数据集介绍

构建方式

PersoSEG语料库的构建基于《Diário Oficial do Distrito Federal》（DODF）的公开数据，通过DODFMiner工具提取相关信息，并由KnEDLe项目的志愿者进行人工标注。数据集中涵盖了与人事行为相关的各类文本片段，每个片段均标注了其所属的行为类型、文本内容以及发布的具体日期。为确保数据质量，所有标注结果均经过KnEDLe项目成员的验证。

特点

PersoSEG语料库包含9058条标注数据，涵盖了12种不同的人事行为类型，如任命、解雇、更正等。每个行为类型均以葡萄牙语和英语两种标签形式呈现，便于跨语言研究。数据集还提供了详细的元数据，包括文档编号、发布日期等，为研究者提供了丰富的上下文信息。此外，数据集的标注过程透明，相关教程和标签定义公开，确保了数据的可重复性和可扩展性。

使用方法

PersoSEG语料库以CSV格式提供，研究者可直接下载并使用。数据集适用于自然语言处理任务，如文本分类、信息提取和文档分割。通过分析标注的行为类型和文本内容，研究者可以构建模型以自动化处理人事相关文档。此外，数据集的英语标签版本为跨语言研究提供了便利，支持多语言模型的训练与评估。

背景与挑战

背景概述

PersoSEG语料库是由巴西利亚大学KnEDLe项目团队创建的一个专注于人事行为文本分类的数据集。该数据集的数据来源于《联邦区官方日报》（DODF），并通过DODFMiner工具提取，随后由志愿者进行人工标注。PersoSEG语料库的核心研究问题在于对官方文档中的人事行为进行自动化分类，以支持文档分割和信息提取任务。该数据集在2020年发布，包含9058条标注数据，涵盖了12种不同的人事行为类别。PersoSEG语料库的发布为自然语言处理领域，尤其是文档分类和信息提取任务，提供了重要的数据支持，推动了相关技术的发展。

当前挑战

PersoSEG语料库在解决人事行为文本分类问题时面临多重挑战。首先，官方文档中的文本通常具有复杂的结构和多样的表达方式，这增加了自动化分类的难度。其次，数据集中某些类别的样本数量较少，例如‘Ato_Tornado_Sem_Efeito_Apo’仅有20条数据，可能导致模型在这些类别上的表现不佳。此外，数据标注过程中依赖人工操作，可能存在标注不一致或错误的情况，影响模型的训练效果。构建过程中，团队还需克服数据提取和清洗的技术难题，确保数据的准确性和完整性。这些挑战共同构成了PersoSEG语料库在应用和研究中的主要障碍。

常用场景

经典使用场景

PersoSEG corpus数据集在自然语言处理领域中被广泛应用于文档分割和文本分类任务。该数据集通过标注巴西联邦区官方公报中的人事行为文本，为研究人员提供了丰富的结构化数据，支持对复杂文档的自动分割和内容识别。特别是在处理多类别文本分类问题时，PersoSEG corpus能够有效提升模型的准确性和鲁棒性。

解决学术问题

PersoSEG corpus解决了文档分割和文本分类中的关键问题，尤其是在处理多类别、多标签的文本数据时。通过提供详细的标注信息，该数据集帮助研究人员开发出更精确的算法，用于识别和分类不同的人事行为。这不仅推动了自然语言处理技术的发展，还为政府文档的自动化处理提供了理论支持。

衍生相关工作

基于PersoSEG corpus，研究人员开发了多种先进的文档分割和文本分类模型。例如，一些研究利用该数据集训练深度学习模型，实现了对复杂文档的高精度分割。此外，该数据集还催生了多篇学术论文，探讨了如何利用标注数据提升自然语言处理任务的性能，进一步推动了该领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集