WONDERBREAD

arXiv2024-06-19 更新2024-06-24 收录

下载链接：

https://github.com/HazyResearch/wonderbread

下载链接

链接失效反馈

资源简介：

WONDERBREAD是由斯坦福大学创建的一个大型数据集，包含2928个人类演示的598个未注释的工作流程，旨在评估多模态基础模型在业务流程管理任务中的表现。数据集内容丰富，每个演示包括完整的屏幕录制、操作轨迹和手动编写的标准操作程序（SOP）。创建过程涉及从WebArena基准中筛选工作流程，并通过多轮质量保证确保演示的高质量。该数据集主要应用于业务流程的文档化、知识传递和改进，旨在解决现有ML基准在BPM任务评估中的不足。

提供机构：

斯坦福大学

创建时间：

2024-06-19

原始信息汇总

WONDERBREAD 数据集概述

WONDERBREAD 是一个用于评估多模态模型在业务流程管理（BPM）任务上的基准和数据集。该数据集旨在支持人工智能在企业应用中增强而非替代人类劳动的目标。

数据集内容

数据集组成

2928个人类演示，涵盖598个网页导航工作流程，源自 WebArena。每个演示包含：
- 意图（Intent）：工作流程目标的简短自然语言描述。
- 录制（Recording）：标注者执行工作流程的全屏录制。
- 动作追踪（Action Trace）：所有动作（点击、按键、滚动）和网页状态的日志。
- 关键帧（Key Frames）：从录制中提取的每个动作时间戳的图像。
- 标准操作程序（SOP）：详细记录标注者所采取步骤的书面指南。
演示排名：162个工作流程的演示质量排名。
120个问答对：关于工作流程特征的问答对。

数据集分发

demos.zip：完整数据集。
gold_demos.zip：仅包含162个工作流程意图的黄金SOP演示。
debug_demos.zip：少量演示，用于快速调试。

基准任务

WONDERBREAD 包含以下6个任务，涵盖高层次的BPM应用场景：

文档化（Documentation）：生成标准操作程序（SOP），以满足质量控制和审计要求。
知识转移（Knowledge Transfer）：回答关于工作流程操作的用户查询，简化入职流程并减少知识工作者每周等待同事信息的时间。
流程改进（Process Improvement）：分析工作流程以识别低效和纠正执行错误。

评估

所有评估脚本可在 wonderbread/benchmark/eval 目录中找到。

引用

如果您发现此工作或代码对您有帮助，请考虑引用以下内容：

@article{hazyresearch2024wonderbread, title={Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks}, author={Michael Wornow and Avanika Narayan and Ben Viggiano and Ishan S. Khare and Tathagat Verma and Tibor Thompson and Miguel Angel Fuentes Hernandez and Sudharsan Sundar and Chloe Trujillo and Krrish Chawla and Rongfei Lu and Justin Shen and Divya Nagaraj and Joshua Martinez and Vardhan Agrawal and Althea Hudson and Nigam H. Shah and Christopher Re}, journal={arXiv preprint arXiv:2406.13264}, url={https://hazyresearch.stanford.edu/wonderbread-website}, year={2024} }

@article{zhou2023webarena, title={WebArena: A Realistic Web Environment for Building Autonomous Agents}, author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others}, journal={arXiv preprint arXiv:2307.13854}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

WONDERBREAD数据集的构建基于WebArena基准，筛选出598个业务流程任务，并由13名注释者录制了2928个演示视频。每个演示包括意图描述、完整屏幕录制、操作轨迹和手动编写的标准操作程序（SOP）。注释者在录制前进行了多次排练，确保演示无错误。数据集还包含162个任务的演示排名和高质量SOP，确保了数据的多样性和准确性。

特点

WONDERBREAD数据集的特点在于其多模态性和广泛的注释细节。每个演示不仅包含屏幕录制和操作轨迹，还配有详细的SOP，反映了注释者在每个步骤中的推理过程。数据集涵盖了从文档生成到知识传递和流程改进的六个新颖业务流程管理任务，提供了丰富的评估场景。此外，数据集还包含120个自由回答的问题，模拟了实际业务流程管理中的咨询场景。

使用方法

WONDERBREAD数据集的使用方法包括三个主要任务：文档生成、知识传递和流程改进。用户可以利用数据集中的多模态数据（如屏幕录制、操作轨迹和SOP）来训练和评估多模态基础模型。数据集提供了自动评估工具，使用F1分数、准确率等指标来衡量模型的表现。此外，用户还可以通过LLM评估器进行更细致的评估，确保模型在业务流程管理任务中的表现符合实际需求。

背景与挑战

背景概述

WONDERBREAD数据集由斯坦福大学的研究团队于2024年创建，旨在填补现有机器学习基准在业务流程管理（BPM）任务评估中的空白。BPM涉及企业工作流的记录、测量、改进和自动化，然而，现有研究主要集中在基于多模态基础模型（如GPT-4）的端到端自动化任务上，忽略了BPM工具在实际应用中的主要时间消耗——工作流文档化。WONDERBREAD是首个专注于BPM任务的多模态基准，包含2928个工作流演示、6个新颖的BPM任务以及自动评估工具。该数据集不仅推动了多模态基础模型在BPM领域的应用，还为开发更“以人为本”的企业AI工具提供了重要参考。

当前挑战

WONDERBREAD数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，尽管现有的多模态基础模型能够自动生成工作流文档（如从视频演示中回忆88%的步骤），但在细粒度的工作流完成验证方面表现不佳（F1 < 0.3）。其次，在数据集构建过程中，研究人员面临了数据标注的复杂性和多样性挑战。每个工作流演示需要包含完整的屏幕录制、操作日志和手动编写的标准操作程序（SOP），这要求标注者具备高度的专业性和一致性。此外，数据集的构建还需要克服现有基准在自动化任务上的局限性，确保其能够支持文档化、知识转移和流程改进等BPM核心任务。

常用场景

经典使用场景

WONDERBREAD数据集主要用于评估多模态基础模型在企业业务流程管理（BPM）任务中的表现。其经典使用场景包括生成标准操作流程（SOP）、辅助知识传递以及优化工作流程。通过提供2928个详细记录的工作流演示，数据集能够帮助研究人员测试模型在文档生成、知识传递和流程改进等任务中的能力。这些任务涵盖了从工作流文档化到流程优化的多个方面，为模型提供了丰富的多模态输入（如屏幕录像、操作日志和文本指南）。

实际应用

在实际应用中，WONDERBREAD数据集可以用于企业内部的业务流程优化和自动化工具开发。例如，企业可以利用该数据集训练模型来自动生成标准操作流程，减少文档化所需的时间和人力成本。此外，模型还可以用于员工培训，通过知识传递任务帮助新员工快速掌握复杂的工作流程。在流程改进方面，模型能够分析现有工作流中的低效环节，并提出优化建议，从而提升企业的整体运营效率。

衍生相关工作

WONDERBREAD数据集推动了多模态基础模型在业务流程管理领域的应用研究。基于该数据集，许多研究工作进一步探索了模型在文档生成、知识传递和流程改进中的潜力。例如，一些研究通过引入更长的上下文窗口和低级别工作流理解技术，提升了模型在多模态任务中的表现。此外，WONDERBREAD还激发了更多关于人机协作的研究，尤其是在如何通过模型增强而非替代人类劳动力方面。这些衍生工作为未来的企业级AI工具开发提供了重要的理论和实践基础。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集