patriziobellan/PET
收藏数据集概述
数据集名称
- 名称: PET
- 全称: Process Extraction from Text
数据集描述
- 摘要: PET数据集旨在填补从文本中提取业务流程的空白,通过建立第一个带有活动、参与者、活动数据、网关及其条件的业务流程描述语料库,为业务流程提取的难度和挑战提供基准。
- 语言: 英语
- 任务:
- 令牌分类
- 命名实体识别
- 关系提取
数据集结构
- 数据实例:
- 令牌分类: 每个实例包含文档名、句子ID、令牌列表和ner标签。
- 关系提取: 每个实例包含文档名、令牌列表、令牌ID、ner标签、句子ID和文档关系。
- 数据字段:
- 令牌分类: 文档名、句子ID、令牌、ner标签。
- 关系提取: 文档名、令牌、令牌ID、ner标签、句子ID、关系。
- 数据分割: 数据未分割,仅包含测试集。
数据集创建
- 来源数据: 原始文本经过预处理和标注,由专家团队使用Inception工具进行标注。
- 标注过程: 由具有BPMN高专业知识的五位标注者完成。
- 个人和敏感信息: 无个人或敏感信息问题。
使用数据考虑
- 社会影响: 无社会影响。
- 偏见讨论: 未发现偏见。
- 其他已知限制: 进一步规范和AND网关元素在基准测试中表现不佳。
附加信息
- 数据集管理者: Patrizio Bellan, Mauro Dragoni, Chiara Ghidini, Han van der Aa, Simone Ponzetto。
- 许可证: MIT
- 贡献者: Patrizio Bellan
- 更新历史:
- v1.0.0: 添加令牌分类任务
- v1.0.1: 添加关系提取任务
- v1.1.0: 修复小错误,修复关系性能
引用信息
@inproceedings{DBLP:conf/aiia/BellanGDPA22, author = {Patrizio Bellan and Chiara Ghidini and Mauro Dragoni and Simone Paolo Ponzetto and Han van der Aa}, editor = {Debora Nozza and Lucia C. Passaro and Marco Polignano}, title = {Process Extraction from Natural Language Text: the {PET} Dataset and Annotation Guidelines}, booktitle = {Proceedings of the Sixth Workshop on Natural Language for Artificial Intelligence {(NL4AI} 2022) co-located with 21th International Conference of the Italian Association for Artificial Intelligence (AI*IA 2022), Udine, November 30th, 2022}, series = {{CEUR} Workshop Proceedings}, volume = {3287}, pages = {177--191}, publisher = {CEUR-WS.org}, year = {2022}, url = {https://ceur-ws.org/Vol-3287/paper18.pdf}, timestamp = {Fri, 10 Mar 2023 16:23:01 +0100}, biburl = {https://dblp.org/rec/conf/aiia/BellanGDPA22.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }




