PersoSEG corpus
收藏github2023-07-26 更新2024-05-31 收录
下载链接:
https://github.com/UnB-KnEDLe/persoseg-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由联邦区官方公报(OGFD)中的人员行为组成,用于文档分割任务。数据集经过手动标注,包含与人员相关的行为信息,如行为类型、文本内容、发布日期等。
This dataset comprises human behaviors extracted from the Official Gazette of the Federal District (OGFD), intended for document segmentation tasks. It has been manually annotated and includes information related to human behaviors, such as behavior types, textual content, and publication dates.
创建时间:
2022-10-29
原始信息汇总
数据集概述
数据来源
- 数据提取自Anotações - Atos de Pessoal数据集,使用DODFMiner从Diário Oficial do Distrito Federal (DODF)提取数据,并由KnEDLe项目的志愿者手动标注。
数据集信息
- 包含与人员相关行为的详细信息,这些行为作为文档分段的章节。
- 数据集由KnEDLe项目成员验证。
属性信息
| 属性 | 描述 |
|---|---|
| type_act | 文本所属的行为类型 |
| text | 标注的行为文本 |
| n_dodf | DODF的版本号 |
| day | 文档发布日期 |
| month | 文档发布月份 |
| year | 文档发布年份 |
版本信息
-
版本0
- 大小: 9058行
- 包含的行为及其标签如下:
行为 标签 Abono de Permanênica Ato_Abono_Permanencia Cessão Ato_Cessao Exoneração Comissionado Ato_Exoneracao_Comissionado Exoneração Efetivo Ato_Exoneracao_Efetivo Nomeação Comissionado Ato_Nomeacao_Comissionado Nomeação Efetivo Ato_Nomeacao_Efetivo Retificação Comissionado Ato_Retificacao_Comissionado Retificação Efetivo Ato_Retificacao_Efetivo Reversão Ato_Reversao Substituição Ato_Substituicao Tornado Sem Efeito Apo Ato_Tornado_Sem_Efeito_Apo Tornado Sem Efeito Exo/Nom Ato_Tornado_Sem_Efeito_Exo_Nom - 各标签数量统计:
类型 数量 Ato_Abono_Permanencia 134 Ato_Cessao 265 Ato_Exoneracao_Comissionado 2009 Ato_Exoneracao_Efetivo 241 Ato_Nomeacao_Comissionado 2313 Ato_Nomeacao_Efetivo 46 Ato_Retificacao_Comissionado 198 Ato_Retificacao_Efetivo 1214 Ato_Reversao 58 Ato_Substituicao 2312 Ato_Tornado_Sem_Efeito_Apo 20 Ato_Tornado_Sem_Efeito_Exo_Nom 248 Total 9058
-
版本1
- 大小: 9058行
- 与版本0的区别:版本1的标签名称为英文。
- 包含的行为及其标签如下:
行为 标签 Permanence Allowance Act_Permanence_Allowance Cession Act_Cession Dismissal of Commissioned Position Act_Dismissal_Commissioned Dismissal of Effective Position Act_Dismissal_Effective Nomination of Commissioned Position Act_Nomination_Commissioned Nomination of Effective Position Act_Nomination_Effective Rectification of Comissioned Appointment Act_Rectification_Comissioned Rectification of Effective Appointment Act_Rectification_Effective Reversal Act_Reversal Substitution Act_Substitution Rendered Ineffective Retirement Acts Act_Rendered_Ineffective_Retirement Rendered Ineffective Dismissal or Nomination Acts Act_Rendered_Ineffective_Dismissal_Nomination - 各标签数量统计:
类型 数量 Act_Permanence_Allowance 134 Act_Cession 265 Act_Dismissal_Commissioned 2009 Act_Dismissal_Effective 241 Act_Nomination_Commissioned 2313 Act_Nomination_Effective 46 Act_Rectification_Comissioned 198 Act_Rectification_Effective 1214 Act_Reversal 58 Act_Substitution 2312 Act_Rendered_Ineffective_Retirement 20 Act_Rendered_Ineffective_Dismissal_Nomination 248 Total 9058
文件信息
- 版本0
- CSV文件链接:CSV (Public)
- 版本1
- CSV文件链接:CSV (Public)
搜集汇总
数据集介绍

构建方式
PersoSEG语料库的构建基于《Diário Oficial do Distrito Federal》(DODF)的公开数据,通过DODFMiner工具提取相关信息,并由KnEDLe项目的志愿者进行人工标注。数据集中涵盖了与人事行为相关的各类文本片段,每个片段均标注了其所属的行为类型、文本内容以及发布的具体日期。为确保数据质量,所有标注结果均经过KnEDLe项目成员的验证。
特点
PersoSEG语料库包含9058条标注数据,涵盖了12种不同的人事行为类型,如任命、解雇、更正等。每个行为类型均以葡萄牙语和英语两种标签形式呈现,便于跨语言研究。数据集还提供了详细的元数据,包括文档编号、发布日期等,为研究者提供了丰富的上下文信息。此外,数据集的标注过程透明,相关教程和标签定义公开,确保了数据的可重复性和可扩展性。
使用方法
PersoSEG语料库以CSV格式提供,研究者可直接下载并使用。数据集适用于自然语言处理任务,如文本分类、信息提取和文档分割。通过分析标注的行为类型和文本内容,研究者可以构建模型以自动化处理人事相关文档。此外,数据集的英语标签版本为跨语言研究提供了便利,支持多语言模型的训练与评估。
背景与挑战
背景概述
PersoSEG语料库是由巴西利亚大学KnEDLe项目团队创建的一个专注于人事行为文本分类的数据集。该数据集的数据来源于《联邦区官方日报》(DODF),并通过DODFMiner工具提取,随后由志愿者进行人工标注。PersoSEG语料库的核心研究问题在于对官方文档中的人事行为进行自动化分类,以支持文档分割和信息提取任务。该数据集在2020年发布,包含9058条标注数据,涵盖了12种不同的人事行为类别。PersoSEG语料库的发布为自然语言处理领域,尤其是文档分类和信息提取任务,提供了重要的数据支持,推动了相关技术的发展。
当前挑战
PersoSEG语料库在解决人事行为文本分类问题时面临多重挑战。首先,官方文档中的文本通常具有复杂的结构和多样的表达方式,这增加了自动化分类的难度。其次,数据集中某些类别的样本数量较少,例如‘Ato_Tornado_Sem_Efeito_Apo’仅有20条数据,可能导致模型在这些类别上的表现不佳。此外,数据标注过程中依赖人工操作,可能存在标注不一致或错误的情况,影响模型的训练效果。构建过程中,团队还需克服数据提取和清洗的技术难题,确保数据的准确性和完整性。这些挑战共同构成了PersoSEG语料库在应用和研究中的主要障碍。
常用场景
经典使用场景
PersoSEG corpus数据集在自然语言处理领域中被广泛应用于文档分割和文本分类任务。该数据集通过标注巴西联邦区官方公报中的人事行为文本,为研究人员提供了丰富的结构化数据,支持对复杂文档的自动分割和内容识别。特别是在处理多类别文本分类问题时,PersoSEG corpus能够有效提升模型的准确性和鲁棒性。
解决学术问题
PersoSEG corpus解决了文档分割和文本分类中的关键问题,尤其是在处理多类别、多标签的文本数据时。通过提供详细的标注信息,该数据集帮助研究人员开发出更精确的算法,用于识别和分类不同的人事行为。这不仅推动了自然语言处理技术的发展,还为政府文档的自动化处理提供了理论支持。
衍生相关工作
基于PersoSEG corpus,研究人员开发了多种先进的文档分割和文本分类模型。例如,一些研究利用该数据集训练深度学习模型,实现了对复杂文档的高精度分割。此外,该数据集还催生了多篇学术论文,探讨了如何利用标注数据提升自然语言处理任务的性能,进一步推动了该领域的发展。
以上内容由遇见数据集搜集并总结生成



