WONDERBREAD
收藏数据集概述
WONDERBREAD 是一个用于评估多模态模型在业务流程管理(BPM)任务上的基准和数据集。该数据集旨在支持那些寻求增强而非替代人类劳动的企业AI应用。
数据集内容
- 2928个人类演示,涵盖598个网页导航工作流程,数据来源于WebArena。每个演示包含:
- 意图: 工作流程目标的简短自然语言描述。
- 录制: 注释者执行工作流程的完整屏幕录制。
- 动作跟踪: 所有动作(点击、按键、滚动)的日志以及每次动作前后的网页状态。
- 关键帧: 从录制中提取的每个动作时间戳的图像。
- 标准操作程序(SOP): 详细描述注释者所采取步骤的书面指南。
- 162个工作流程的演示质量排名。
- 120个关于工作流程特性的问答对。
数据集分发
demos.zip- 链接 - 完整数据集。gold_demos.zip- 链接 - 仅包含162个工作流程意图的黄金SOP对应的演示。debug_demos.zip- 链接 - 少量演示,用于快速调试。
基准任务
WONDERBREAD 包含6个任务,涉及以下高级BPM用例:
- 文档化: 生成标准操作程序(SOPs),以满足质量控制和审计要求。
- 知识转移: 回答关于工作流程操作的用户查询,简化入职流程并减少知识工作者等待信息的时间。
- 流程改进: 分析工作流程以识别低效率和纠正执行错误。
数据集下载与使用
- 安装仓库并创建conda环境。
- 从Google Drive下载数据集并保存至
/data/demos。 - 运行基准测试,评估模型性能。
引用信息
若您发现此工作或代码有帮助,请考虑引用:
@article{hazyresearch2024wonderbread, title={Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks}, author={Michael Wornow and Avanika Narayan and Ben Viggiano and Ishan S. Khare and Tathagat Verma and Tibor Thompson and Miguel Angel Fuentes Hernandez and Sudharsan Sundar and Chloe Trujillo and Krrish Chawla and Rongfei Lu and Justin Shen and Divya Nagaraj and Joshua Martinez and Vardhan Agrawal and Althea Hudson and Nigam H. Shah and Christopher Re}, journal={arXiv preprint arXiv:2406.13264}, url={https://hazyresearch.stanford.edu/wonderbread-website}, year={2024} }
@article{zhou2023webarena, title={WebArena: A Realistic Web Environment for Building Autonomous Agents}, author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others}, journal={arXiv preprint arXiv:2307.13854}, year={2023} }




