WONDERBREAD

github2024-06-18 更新2024-06-20 收录

下载链接：

https://github.com/HazyResearch/wonderbread

下载链接

链接失效反馈

官方服务：

资源简介：

WONDERBREAD是一个用于评估多模态模型在业务流程管理(BPM)任务上的基准和数据集。该数据集包含2928个人类演示，涵盖598个网页导航工作流程，每个演示包括意图、记录、行动轨迹、关键帧和标准操作程序(SOP)。此外，数据集还包括演示质量排名和关于工作流程特性的120个问答对。

WONDERBREAD is a benchmark and dataset designed to evaluate multimodal models on Business Process Management (BPM) tasks. The dataset comprises 2,928 human demonstrations, covering 598 web navigation workflows. Each demonstration includes intent, recordings, action trajectories, keyframes, and Standard Operating Procedures (SOP). Additionally, the dataset features rankings of demonstration quality and 120 question-answer pairs regarding workflow characteristics.

创建时间：

2024-06-05

原始信息汇总

数据集概述

WONDERBREAD 是一个用于评估多模态模型在业务流程管理（BPM）任务上的基准和数据集。该数据集旨在支持那些寻求增强而非替代人类劳动的企业AI应用。

数据集内容

2928个人类演示，涵盖598个网页导航工作流程，数据来源于WebArena。每个演示包含：
- 意图： 工作流程目标的简短自然语言描述。
- 录制： 注释者执行工作流程的完整屏幕录制。
- 动作跟踪： 所有动作（点击、按键、滚动）的日志以及每次动作前后的网页状态。
- 关键帧： 从录制中提取的每个动作时间戳的图像。
- 标准操作程序（SOP）： 详细描述注释者所采取步骤的书面指南。
162个工作流程的演示质量排名。
120个关于工作流程特性的问答对。

数据集分发

demos.zip - 链接 - 完整数据集。
gold_demos.zip - 链接 - 仅包含162个工作流程意图的黄金SOP对应的演示。
debug_demos.zip - 链接 - 少量演示，用于快速调试。

基准任务

WONDERBREAD 包含6个任务，涉及以下高级BPM用例：

文档化： 生成标准操作程序（SOPs），以满足质量控制和审计要求。
知识转移： 回答关于工作流程操作的用户查询，简化入职流程并减少知识工作者等待信息的时间。
流程改进： 分析工作流程以识别低效率和纠正执行错误。

数据集下载与使用

安装仓库并创建conda环境。
从Google Drive下载数据集并保存至/data/demos。
运行基准测试，评估模型性能。

引用信息

若您发现此工作或代码有帮助，请考虑引用：

@article{hazyresearch2024wonderbread, title={Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks}, author={Michael Wornow and Avanika Narayan and Ben Viggiano and Ishan S. Khare and Tathagat Verma and Tibor Thompson and Miguel Angel Fuentes Hernandez and Sudharsan Sundar and Chloe Trujillo and Krrish Chawla and Rongfei Lu and Justin Shen and Divya Nagaraj and Joshua Martinez and Vardhan Agrawal and Althea Hudson and Nigam H. Shah and Christopher Re}, journal={arXiv preprint arXiv:2406.13264}, url={https://hazyresearch.stanford.edu/wonderbread-website}, year={2024} }

@article{zhou2023webarena, title={WebArena: A Realistic Web Environment for Building Autonomous Agents}, author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others}, journal={arXiv preprint arXiv:2307.13854}, year={2023} }

搜集汇总

数据集介绍

构建方式

WONDERBREAD数据集的构建基于WebArena平台，收集了2928个人类演示，涵盖598个网页导航工作流程。每个演示包括意图描述、屏幕录制、动作追踪、关键帧和标准操作程序（SOP）。数据集通过详细的记录和标注，确保了每个工作流程的完整性和准确性，从而为多模态模型在业务流程管理（BPM）任务中的评估提供了坚实的基础。

特点

WONDERBREAD数据集的显著特点在于其多模态性和高度的真实性。数据集不仅包含文本信息，还融合了视频、动作追踪和图像等多种模态，使得模型能够全面理解和处理复杂的工作流程。此外，数据集中的每个演示都经过精心设计和标注，确保了数据的高质量和一致性，为模型的训练和评估提供了可靠的依据。

使用方法

使用WONDERBREAD数据集时，用户可以通过下载预处理的数据子集（如demos.zip、gold_demos.zip和debug_demos.zip）进行快速测试和开发。数据集支持多种任务，包括SOP生成、演示分割、问答、演示验证和SOP改进等。用户可以通过Python脚本或Docker容器运行这些任务，并根据需要调整模型参数和数据输入，以实现最佳的模型性能评估和应用。

背景与挑战

背景概述

WONDERBREAD数据集由HazyResearch团队于2024年创建，旨在为多模态模型在业务流程管理（BPM）任务中的评估提供一个基准。该数据集的核心研究问题是如何通过AI技术增强而非替代人类劳动，从而推动企业应用的发展。WONDERBREAD不仅包含2928个人类演示的598个网页导航工作流程，还提供了详细的意图描述、屏幕录制、动作日志、关键帧和标准操作程序（SOP）。这些数据来源于WebArena平台，为研究者提供了一个全面且多样化的数据资源，以评估和改进多模态模型在实际业务环境中的表现。

当前挑战

WONDERBREAD数据集在构建过程中面临多项挑战。首先，收集和标注大量高质量的工作流程数据需要耗费大量时间和资源。其次，确保数据的多模态特性（如视频、文本和动作日志）的一致性和准确性是一个复杂的过程。此外，评估多模态模型在生成SOP、演示分割、知识转移和流程改进等任务中的表现，需要开发新的评估方法和工具。最后，如何有效地管理和分发如此大规模的数据集，以便研究者能够方便地访问和使用，也是一个重要的技术挑战。

常用场景

经典使用场景

WONDERBREAD数据集在业务流程管理（BPM）领域中，主要用于评估多模态模型在生成标准操作程序（SOP）、演示分割、知识转移和流程改进等任务中的表现。通过提供丰富的多模态数据，包括意图描述、屏幕录制、动作追踪、关键帧和SOP文档，该数据集为研究人员和开发者提供了一个全面的基准，以测试和优化模型在实际业务环境中的应用能力。

解决学术问题

WONDERBREAD数据集解决了在业务流程管理中，如何有效评估和提升多模态模型性能的学术问题。通过提供高质量的多模态数据和多样化的任务，该数据集促进了模型在生成SOP、知识转移和流程改进等方面的研究，为学术界提供了一个标准化的评估平台，推动了相关领域的技术进步和理论发展。

衍生相关工作

基于WONDERBREAD数据集，研究者们开发了多种用于业务流程管理的多模态模型，包括SOP生成模型、演示分割模型和知识转移模型。这些模型在生成高质量SOP、自动化演示分割和高效知识转移方面表现出色，推动了业务流程管理的自动化和智能化。此外，该数据集还促进了相关领域的研究，如多模态数据融合和模型评估方法的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集