five

PersoSEG corpus

收藏
github2023-07-26 更新2024-05-31 收录
下载链接:
https://github.com/UnB-KnEDLe/persoseg-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由联邦区官方公报(OGFD)中的人员行为组成,用于文档分割任务。数据集经过手动标注,包含与人员相关的行为信息,如行为类型、文本内容、发布日期等。

This dataset comprises human behaviors extracted from the Official Gazette of the Federal District (OGFD), intended for document segmentation tasks. It has been manually annotated and includes information related to human behaviors, such as behavior types, textual content, and publication dates.
创建时间:
2022-10-29
原始信息汇总

数据集概述

数据来源

数据集信息

  • 包含与人员相关行为的详细信息,这些行为作为文档分段的章节。
  • 数据集由KnEDLe项目成员验证。

属性信息

属性 描述
type_act 文本所属的行为类型
text 标注的行为文本
n_dodf DODF的版本号
day 文档发布日期
month 文档发布月份
year 文档发布年份

版本信息

  • 版本0

    • 大小: 9058行
    • 包含的行为及其标签如下:
      行为 标签
      Abono de Permanênica Ato_Abono_Permanencia
      Cessão Ato_Cessao
      Exoneração Comissionado Ato_Exoneracao_Comissionado
      Exoneração Efetivo Ato_Exoneracao_Efetivo
      Nomeação Comissionado Ato_Nomeacao_Comissionado
      Nomeação Efetivo Ato_Nomeacao_Efetivo
      Retificação Comissionado Ato_Retificacao_Comissionado
      Retificação Efetivo Ato_Retificacao_Efetivo
      Reversão Ato_Reversao
      Substituição Ato_Substituicao
      Tornado Sem Efeito Apo Ato_Tornado_Sem_Efeito_Apo
      Tornado Sem Efeito Exo/Nom Ato_Tornado_Sem_Efeito_Exo_Nom
    • 各标签数量统计:
      类型 数量
      Ato_Abono_Permanencia 134
      Ato_Cessao 265
      Ato_Exoneracao_Comissionado 2009
      Ato_Exoneracao_Efetivo 241
      Ato_Nomeacao_Comissionado 2313
      Ato_Nomeacao_Efetivo 46
      Ato_Retificacao_Comissionado 198
      Ato_Retificacao_Efetivo 1214
      Ato_Reversao 58
      Ato_Substituicao 2312
      Ato_Tornado_Sem_Efeito_Apo 20
      Ato_Tornado_Sem_Efeito_Exo_Nom 248
      Total 9058
  • 版本1

    • 大小: 9058行
    • 与版本0的区别:版本1的标签名称为英文。
    • 包含的行为及其标签如下:
      行为 标签
      Permanence Allowance Act_Permanence_Allowance
      Cession Act_Cession
      Dismissal of Commissioned Position Act_Dismissal_Commissioned
      Dismissal of Effective Position Act_Dismissal_Effective
      Nomination of Commissioned Position Act_Nomination_Commissioned
      Nomination of Effective Position Act_Nomination_Effective
      Rectification of Comissioned Appointment Act_Rectification_Comissioned
      Rectification of Effective Appointment Act_Rectification_Effective
      Reversal Act_Reversal
      Substitution Act_Substitution
      Rendered Ineffective Retirement Acts Act_Rendered_Ineffective_Retirement
      Rendered Ineffective Dismissal or Nomination Acts Act_Rendered_Ineffective_Dismissal_Nomination
    • 各标签数量统计:
      类型 数量
      Act_Permanence_Allowance 134
      Act_Cession 265
      Act_Dismissal_Commissioned 2009
      Act_Dismissal_Effective 241
      Act_Nomination_Commissioned 2313
      Act_Nomination_Effective 46
      Act_Rectification_Comissioned 198
      Act_Rectification_Effective 1214
      Act_Reversal 58
      Act_Substitution 2312
      Act_Rendered_Ineffective_Retirement 20
      Act_Rendered_Ineffective_Dismissal_Nomination 248
      Total 9058

文件信息

搜集汇总
数据集介绍
main_image_url
构建方式
PersoSEG语料库的构建基于《Diário Oficial do Distrito Federal》(DODF)的公开数据,通过DODFMiner工具提取相关信息,并由KnEDLe项目的志愿者进行人工标注。数据集中涵盖了与人事行为相关的各类文本片段,每个片段均标注了其所属的行为类型、文本内容以及发布的具体日期。为确保数据质量,所有标注结果均经过KnEDLe项目成员的验证。
特点
PersoSEG语料库包含9058条标注数据,涵盖了12种不同的人事行为类型,如任命、解雇、更正等。每个行为类型均以葡萄牙语和英语两种标签形式呈现,便于跨语言研究。数据集还提供了详细的元数据,包括文档编号、发布日期等,为研究者提供了丰富的上下文信息。此外,数据集的标注过程透明,相关教程和标签定义公开,确保了数据的可重复性和可扩展性。
使用方法
PersoSEG语料库以CSV格式提供,研究者可直接下载并使用。数据集适用于自然语言处理任务,如文本分类、信息提取和文档分割。通过分析标注的行为类型和文本内容,研究者可以构建模型以自动化处理人事相关文档。此外,数据集的英语标签版本为跨语言研究提供了便利,支持多语言模型的训练与评估。
背景与挑战
背景概述
PersoSEG语料库是由巴西利亚大学KnEDLe项目团队创建的一个专注于人事行为文本分类的数据集。该数据集的数据来源于《联邦区官方日报》(DODF),并通过DODFMiner工具提取,随后由志愿者进行人工标注。PersoSEG语料库的核心研究问题在于对官方文档中的人事行为进行自动化分类,以支持文档分割和信息提取任务。该数据集在2020年发布,包含9058条标注数据,涵盖了12种不同的人事行为类别。PersoSEG语料库的发布为自然语言处理领域,尤其是文档分类和信息提取任务,提供了重要的数据支持,推动了相关技术的发展。
当前挑战
PersoSEG语料库在解决人事行为文本分类问题时面临多重挑战。首先,官方文档中的文本通常具有复杂的结构和多样的表达方式,这增加了自动化分类的难度。其次,数据集中某些类别的样本数量较少,例如‘Ato_Tornado_Sem_Efeito_Apo’仅有20条数据,可能导致模型在这些类别上的表现不佳。此外,数据标注过程中依赖人工操作,可能存在标注不一致或错误的情况,影响模型的训练效果。构建过程中,团队还需克服数据提取和清洗的技术难题,确保数据的准确性和完整性。这些挑战共同构成了PersoSEG语料库在应用和研究中的主要障碍。
常用场景
经典使用场景
PersoSEG corpus数据集在自然语言处理领域中被广泛应用于文档分割和文本分类任务。该数据集通过标注巴西联邦区官方公报中的人事行为文本,为研究人员提供了丰富的结构化数据,支持对复杂文档的自动分割和内容识别。特别是在处理多类别文本分类问题时,PersoSEG corpus能够有效提升模型的准确性和鲁棒性。
解决学术问题
PersoSEG corpus解决了文档分割和文本分类中的关键问题,尤其是在处理多类别、多标签的文本数据时。通过提供详细的标注信息,该数据集帮助研究人员开发出更精确的算法,用于识别和分类不同的人事行为。这不仅推动了自然语言处理技术的发展,还为政府文档的自动化处理提供了理论支持。
衍生相关工作
基于PersoSEG corpus,研究人员开发了多种先进的文档分割和文本分类模型。例如,一些研究利用该数据集训练深度学习模型,实现了对复杂文档的高精度分割。此外,该数据集还催生了多篇学术论文,探讨了如何利用标注数据提升自然语言处理任务的性能,进一步推动了该领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作