VeriGUI
收藏VeriGUI数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 标签: Gui_Agent, Benchmark
- 数据集名称: VeriGUI
- 规模: n<1K
数据集简介
VeriGUI是一个大规模、人工标注的数据集,旨在促进自主GUI代理的开发和评估,这些代理能够在真实的计算机环境中执行复杂的长期任务。与现有专注于短期交互的GUI数据集不同,VeriGUI强调长链复杂性和子任务级可验证性,以更好地反映真实的人机交互场景。
主要特点
🔗 长链复杂性
- 任务需要2-15个相互依赖的步骤,包含数百个GUI动作
- 跨多个应用程序和网页的复杂工作流
- 需要自适应推理和规划的现实任务依赖关系
- 任务反映现实世界的计算机使用模式
✅ 子任务级可验证性
- 每个中间步骤的细粒度评估,而不仅仅是最终结果
- 每个步骤的可验证目标,同时支持多样化的探索策略
- 步骤内的开放式交互 - 代理可以选择不同的路径实现相同目标
- 详细的监督信号,便于错误诊断和代理改进
🌐 多环境覆盖
- 网络环境: 各种网站、在线服务和Web应用程序
- 桌面环境: 办公软件、操作系统和专业工具(待完成)
- 跨平台任务转换和交互
👥 人工专家标注
- 所有轨迹均由人工专家精心创建和标注
- 高质量的任务说明和步骤级标注
- 已验证的任务可行性和现实工作流模式
数据集结构
VeriGUI/ ├── task_001/ │ ├── data.json # 完整任务标注 │ └── input.webm # 任务执行视频记录 └── task_002/ ├── data.json └── input.webm
任务结构
json 📋 根任务 ├── instruct (String): 主任务说明 ├── result (String): 完整任务的最终预期答案 ├── actionLength (Integer): 高级步骤总数 └── actions (Array): 逐步动作列表 │ └── 📝 步骤对象 ├── checked (Boolean): 该步骤是否已验证 ├── instruct (String): 该步骤的子任务说明 ├── result (String): 该步骤的预期结果 └── innerActions (Array): 该步骤内的低级GUI动作 │ └── 🖱️ 动作对象 ├── type (String): GUI动作类型 ├── url (String): 当前网页URL ├── rawHtml (String): 原始HTML内容(可选) ├── time (Integer): 时间戳(毫秒) ├── _delete (Boolean): 是否忽略该动作 └── info (Object): 详细动作信息 ├── clientX/Y (Integer): 相对于视口的鼠标坐标 ├── pageX/Y (Integer): 相对于页面的鼠标坐标 ├── layerX/Y (Integer): 相对于图层的鼠标坐标 ├── screenX/Y (Integer): 相对于屏幕的鼠标坐标 ├── offsetX/Y (Integer): 相对于目标元素的鼠标坐标 ├── altKey/shiftKey/metaKey (Boolean): 修饰键状态 └── target (Object): 目标DOM元素信息 ├── innerText (String): 目标元素的文本内容 ├── className (String): CSS类名 └── [其他DOM属性]
待办事项
📊 数据集扩展
- [ ] 桌面环境数据收集
- [ ] 办公软件交互(Microsoft Office, LibreOffice等)
- [ ] 专业工具(Adobe Creative Suite, IDE等)
- [ ] 认证和用户管理任务
- [ ] 带有表单验证的用户注册工作流
- [ ] 跨平台的登录流程
- [ ] 多因素认证(2FA/MFA)处理
- [ ] 通过电子邮件/SMS的账户验证
- [ ] CAPTCHA和验证码交互
- [ ] 从当前的130个任务扩展到500+任务
- [ ] 保持所有类别的平衡分布
- [ ] 添加更多跨应用程序工作流
📈 交互式数据任务
- [ ] 交互式仪表板导航和数据过滤
- [ ] 图表缩放、平移和工具提示信息提取
- [ ] 通过UI控件进行多维数据探索
- [ ] 通过Web界面的研究数据库查询
- [ ] 统计分析工具交互
🔧 评估和基准测试
- [ ] 全面的模型性能分析
- [ ] 高级评估指标
引用
如果研究中使用VeriGUI,请引用:
@article{verigui2025, title={VeriGUI: Verifiable Long-Chain GUI Dataset}, author={Authors}, journal={arXiv preprint arXiv:xxxx.xxxxx}, year={2025} }
许可证
本数据集根据Apache-2.0发布




