WONDERBREAD
收藏WONDERBREAD 数据集概述
WONDERBREAD 是一个用于评估多模态模型在业务流程管理(BPM)任务上的基准和数据集。该数据集旨在支持人工智能在企业应用中增强而非替代人类劳动的目标。
数据集内容
数据集组成
- 2928个人类演示,涵盖598个网页导航工作流程,源自 WebArena。每个演示包含:
- 意图(Intent):工作流程目标的简短自然语言描述。
- 录制(Recording):标注者执行工作流程的全屏录制。
- 动作追踪(Action Trace):所有动作(点击、按键、滚动)和网页状态的日志。
- 关键帧(Key Frames):从录制中提取的每个动作时间戳的图像。
- 标准操作程序(SOP):详细记录标注者所采取步骤的书面指南。
- 演示排名:162个工作流程的演示质量排名。
- 120个问答对:关于工作流程特征的问答对。
数据集分发
demos.zip:完整数据集。gold_demos.zip:仅包含162个工作流程意图的黄金SOP演示。debug_demos.zip:少量演示,用于快速调试。
基准任务
WONDERBREAD 包含以下6个任务,涵盖高层次的BPM应用场景:
- 文档化(Documentation):生成标准操作程序(SOP),以满足质量控制和审计要求。
- 知识转移(Knowledge Transfer):回答关于工作流程操作的用户查询,简化入职流程并减少知识工作者每周等待同事信息的时间。
- 流程改进(Process Improvement):分析工作流程以识别低效和纠正执行错误。
评估
所有评估脚本可在 wonderbread/benchmark/eval 目录中找到。
引用
如果您发现此工作或代码对您有帮助,请考虑引用以下内容:
@article{hazyresearch2024wonderbread, title={Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks}, author={Michael Wornow and Avanika Narayan and Ben Viggiano and Ishan S. Khare and Tathagat Verma and Tibor Thompson and Miguel Angel Fuentes Hernandez and Sudharsan Sundar and Chloe Trujillo and Krrish Chawla and Rongfei Lu and Justin Shen and Divya Nagaraj and Joshua Martinez and Vardhan Agrawal and Althea Hudson and Nigam H. Shah and Christopher Re}, journal={arXiv preprint arXiv:2406.13264}, url={https://hazyresearch.stanford.edu/wonderbread-website}, year={2024} }
@article{zhou2023webarena, title={WebArena: A Realistic Web Environment for Building Autonomous Agents}, author={Zhou, Shuyan and Xu, Frank F and Zhu, Hao and Zhou, Xuhui and Lo, Robert and Sridhar, Abishek and Cheng, Xianyi and Bisk, Yonatan and Fried, Daniel and Alon, Uri and others}, journal={arXiv preprint arXiv:2307.13854}, year={2023} }




