five

patriziobellan/PET

收藏
Hugging Face2023-07-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/patriziobellan/PET
下载链接
链接失效反馈
官方服务:
资源简介:
PET数据集是一个用于从文本中提取业务流程的标注数据集。该数据集旨在填补自然语言处理(NLP)与业务流程管理(BPM)之间的空白,提供了第一个包含活动、参与者、活动数据、网关及其条件标注的业务流程描述语料库。数据集支持的任务包括Token分类、命名实体识别和关系抽取。数据集的语言为英语,包含45个文本描述及其标注。数据集的创建过程包括文本预处理、文本标注、自动标注修复、一致性计算和最终的和解阶段。数据集的标注由五位具有BPMN专业知识的专家完成,并通过自动程序修复了不符合指南的标注。

The PET Dataset is an annotated dataset for extracting business processes from text. It aims to bridge the gap between Natural Language Processing (NLP) and Business Process Management (BPM), and constitutes the first corpus of business process descriptions annotated with activities, participants, activity data, gateways and their respective conditions. The tasks supported by this dataset include Token Classification, Named Entity Recognition (NER) and Relation Extraction. The dataset is in English, containing 45 text descriptions along with their corresponding annotations. Its construction process involves text preprocessing, text annotation, automatic annotation correction, consistency calculation, and the final reconciliation stage. The annotations were completed by five experts with professional expertise in BPMN, and non-compliant annotations against the guidelines were corrected via automated programs.
提供机构:
patriziobellan
原始信息汇总

数据集概述

数据集名称

  • 名称: PET
  • 全称: Process Extraction from Text

数据集描述

  • 摘要: PET数据集旨在填补从文本中提取业务流程的空白,通过建立第一个带有活动、参与者、活动数据、网关及其条件的业务流程描述语料库,为业务流程提取的难度和挑战提供基准。
  • 语言: 英语
  • 任务:
    • 令牌分类
    • 命名实体识别
    • 关系提取

数据集结构

  • 数据实例:
    • 令牌分类: 每个实例包含文档名、句子ID、令牌列表和ner标签。
    • 关系提取: 每个实例包含文档名、令牌列表、令牌ID、ner标签、句子ID和文档关系。
  • 数据字段:
    • 令牌分类: 文档名、句子ID、令牌、ner标签。
    • 关系提取: 文档名、令牌、令牌ID、ner标签、句子ID、关系。
  • 数据分割: 数据未分割,仅包含测试集。

数据集创建

  • 来源数据: 原始文本经过预处理和标注,由专家团队使用Inception工具进行标注。
  • 标注过程: 由具有BPMN高专业知识的五位标注者完成。
  • 个人和敏感信息: 无个人或敏感信息问题。

使用数据考虑

  • 社会影响: 无社会影响。
  • 偏见讨论: 未发现偏见。
  • 其他已知限制: 进一步规范和AND网关元素在基准测试中表现不佳。

附加信息

  • 数据集管理者: Patrizio Bellan, Mauro Dragoni, Chiara Ghidini, Han van der Aa, Simone Ponzetto。
  • 许可证: MIT
  • 贡献者: Patrizio Bellan
  • 更新历史:
    • v1.0.0: 添加令牌分类任务
    • v1.0.1: 添加关系提取任务
    • v1.1.0: 修复小错误,修复关系性能

引用信息

@inproceedings{DBLP:conf/aiia/BellanGDPA22, author = {Patrizio Bellan and Chiara Ghidini and Mauro Dragoni and Simone Paolo Ponzetto and Han van der Aa}, editor = {Debora Nozza and Lucia C. Passaro and Marco Polignano}, title = {Process Extraction from Natural Language Text: the {PET} Dataset and Annotation Guidelines}, booktitle = {Proceedings of the Sixth Workshop on Natural Language for Artificial Intelligence {(NL4AI} 2022) co-located with 21th International Conference of the Italian Association for Artificial Intelligence (AI*IA 2022), Udine, November 30th, 2022}, series = {{CEUR} Workshop Proceedings}, volume = {3287}, pages = {177--191}, publisher = {CEUR-WS.org}, year = {2022}, url = {https://ceur-ws.org/Vol-3287/paper18.pdf}, timestamp = {Fri, 10 Mar 2023 16:23:01 +0100}, biburl = {https://dblp.org/rec/conf/aiia/BellanGDPA22.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作