VeriGUI

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/2077AIDataFoundation/VeriGUI

下载链接

链接失效反馈

官方服务：

资源简介：

VeriGUI是一个大规模的、人工标注的数据集，旨在促进能够在真实计算机环境中执行复杂、长期任务的自主GUI代理的开发和评估。与现有主要关注短期交互的GUI数据集不同，VeriGUI强调**长链复杂性和子任务级可验证性**，以更好地反映现实世界中的人机交互场景。

创建时间：

2025-07-10

原始信息汇总

VeriGUI数据集概述

基本信息

许可证: Apache-2.0
语言: 英语
标签: Gui_Agent, Benchmark
数据集名称: VeriGUI
规模: n<1K

数据集简介

VeriGUI是一个大规模、人工标注的数据集，旨在促进自主GUI代理的开发和评估，这些代理能够在真实的计算机环境中执行复杂的长期任务。与现有专注于短期交互的GUI数据集不同，VeriGUI强调长链复杂性和子任务级可验证性，以更好地反映真实的人机交互场景。

主要特点

🔗 长链复杂性

任务需要2-15个相互依赖的步骤，包含数百个GUI动作
跨多个应用程序和网页的复杂工作流
需要自适应推理和规划的现实任务依赖关系
任务反映现实世界的计算机使用模式

✅ 子任务级可验证性

每个中间步骤的细粒度评估，而不仅仅是最终结果
每个步骤的可验证目标，同时支持多样化的探索策略
步骤内的开放式交互 - 代理可以选择不同的路径实现相同目标
详细的监督信号，便于错误诊断和代理改进

🌐 多环境覆盖

网络环境: 各种网站、在线服务和Web应用程序
桌面环境: 办公软件、操作系统和专业工具（待完成）
跨平台任务转换和交互

👥 人工专家标注

所有轨迹均由人工专家精心创建和标注
高质量的任务说明和步骤级标注
已验证的任务可行性和现实工作流模式

数据集结构

VeriGUI/ ├── task_001/ │ ├── data.json # 完整任务标注 │ └── input.webm # 任务执行视频记录 └── task_002/ ├── data.json └── input.webm

任务结构

json 📋 根任务 ├── instruct (String): 主任务说明 ├── result (String): 完整任务的最终预期答案 ├── actionLength (Integer): 高级步骤总数 └── actions (Array): 逐步动作列表 │ └── 📝 步骤对象 ├── checked (Boolean): 该步骤是否已验证 ├── instruct (String): 该步骤的子任务说明 ├── result (String): 该步骤的预期结果 └── innerActions (Array): 该步骤内的低级GUI动作 │ └── 🖱️ 动作对象 ├── type (String): GUI动作类型 ├── url (String): 当前网页URL ├── rawHtml (String): 原始HTML内容（可选） ├── time (Integer): 时间戳（毫秒） ├── _delete (Boolean): 是否忽略该动作 └── info (Object): 详细动作信息 ├── clientX/Y (Integer): 相对于视口的鼠标坐标 ├── pageX/Y (Integer): 相对于页面的鼠标坐标 ├── layerX/Y (Integer): 相对于图层的鼠标坐标 ├── screenX/Y (Integer): 相对于屏幕的鼠标坐标 ├── offsetX/Y (Integer): 相对于目标元素的鼠标坐标 ├── altKey/shiftKey/metaKey (Boolean): 修饰键状态 └── target (Object): 目标DOM元素信息 ├── innerText (String): 目标元素的文本内容 ├── className (String): CSS类名 └── [其他DOM属性]

待办事项

📊 数据集扩展

[ ] 桌面环境数据收集
- [ ] 办公软件交互（Microsoft Office, LibreOffice等）
- [ ] 专业工具（Adobe Creative Suite, IDE等）
[ ] 认证和用户管理任务
- [ ] 带有表单验证的用户注册工作流
- [ ] 跨平台的登录流程
- [ ] 多因素认证（2FA/MFA）处理
- [ ] 通过电子邮件/SMS的账户验证
- [ ] CAPTCHA和验证码交互
[ ] 从当前的130个任务扩展到500+任务
[ ] 保持所有类别的平衡分布
[ ] 添加更多跨应用程序工作流

📈 交互式数据任务

[ ] 交互式仪表板导航和数据过滤
[ ] 图表缩放、平移和工具提示信息提取
[ ] 通过UI控件进行多维数据探索
[ ] 通过Web界面的研究数据库查询
[ ] 统计分析工具交互

🔧 评估和基准测试

[ ] 全面的模型性能分析
[ ] 高级评估指标

引用

如果研究中使用VeriGUI，请引用：

@article{verigui2025, title={VeriGUI: Verifiable Long-Chain GUI Dataset}, author={Authors}, journal={arXiv preprint arXiv:xxxx.xxxxx}, year={2025} }

许可证

本数据集根据Apache-2.0发布

搜集汇总

数据集介绍

构建方式

在图形用户界面(GUI)智能体研究领域，VeriGUI数据集通过精心设计的多阶段构建流程脱颖而出。该数据集由人类专家团队采用系统性方法构建，涵盖从任务设计、轨迹录制到多层次标注的全流程。专家们首先设计包含2-15个相互依赖步骤的复杂任务流程，随后在实际计算环境中执行并录制完整的交互过程。每个任务不仅包含最终目标，还详细标注了中间步骤的预期结果和底层GUI操作，形成层次化的数据结构。为确保数据质量，所有任务都经过可行性验证和流程优化，真实反映了跨平台、多应用场景下的人机交互模式。

特点

VeriGUI数据集的核心价值体现在其独特的特性组合上。该数据集突破了传统GUI数据集局限于短期简单交互的局限，专注于长链复杂任务的建模。其任务流程跨越多个应用程序和网页，要求智能体具备跨环境推理和规划能力。数据集创新性地引入了子任务级可验证机制，每个中间步骤都设有明确的验证点，既保证了评估的细粒度，又为智能体提供了丰富的学习信号。多环境覆盖特性涵盖网络浏览器、桌面软件等不同平台，配合详尽的DOM元素信息和操作时空标记，为GUI理解研究提供了前所未有的丰富上下文。

使用方法

研究人员可通过标准化数据结构高效利用VeriGUI数据集。每个任务以独立目录组织，包含结构化的JSON注解文件和实际执行过程的视频记录。JSON文件采用层次化设计，从顶层任务指令到底层GUI操作事件形成完整追溯链。评估时可选择关注最终任务完成率(SR)或分步完成度(CR)等指标，也可基于innerActions层的细节信息进行细粒度错误分析。数据集支持多种研究范式，既可用于端到端智能体训练，也可作为验证环境测试规划算法的有效性。通过配套的可视化工具，研究者能直观分析智能体与GUI的交互过程，加速模型调试和改进。

背景与挑战

背景概述

VeriGUI数据集作为人机交互领域的重要资源，由专业研究团队于2025年推出，旨在解决自主GUI代理在复杂、长链条任务中的性能评估难题。该数据集突破了传统GUI数据集局限于短期交互的桎梏，通过涵盖2-15个相互依赖的操作步骤，真实模拟了跨平台、多应用的计算机使用场景。其核心创新在于引入子任务级可验证机制，为智能体在办公软件、专业工具及网络环境中的长序列操作提供细粒度评估标准，显著推动了人机交互智能体的规划与推理能力研究。

当前挑战

构建VeriGUI面临双重挑战：在领域层面，长链条任务要求智能体具备跨应用状态的持续跟踪能力，而现有模型在18.3%的平均完成率（CR）表现揭示出时序决策的薄弱；在数据构建层面，保持多环境（网页/桌面）操作轨迹的真实性需精确记录数百个GUI动作的时空关系，专家标注中需平衡操作自由度与验证严格性，这对标注协议设计提出极高要求。当前数据集尚缺桌面环境数据，扩展至500+任务时还需解决跨平台工作流的语义连贯性问题。

常用场景

经典使用场景

在图形用户界面（GUI）自动化研究领域，VeriGUI数据集因其长链复杂性和子任务可验证性而成为评估自主GUI代理性能的黄金标准。该数据集通过模拟真实世界中跨多个应用程序和网页的复杂工作流程，为研究人员提供了测试代理在2-15个相互依赖步骤中表现的能力。其细粒度的中间步骤验证机制允许对代理的推理和规划能力进行深入分析，这在开发能够处理现实计算机使用模式的智能系统中至关重要。

实际应用

在实际应用层面，VeriGUI数据集为开发能够处理复杂办公自动化、跨平台数据操作和多步骤网络服务的智能代理提供了坚实基础。其涵盖的各类环境——从网页应用到专业软件——使其成为训练和评估商业自动化工具的理想选择。特别是在客户服务自动化、数据录入系统和跨平台工作流管理等领域，基于该数据集开发的代理已展现出显著提升效率的潜力。

衍生相关工作

VeriGUI数据集已催生了一系列重要的研究工作，特别是在多模态代理系统和长程任务规划领域。基于该数据集，研究者开发了新型评估指标来衡量代理在复杂环境中的稳健性，并提出了创新的架构来处理跨应用程序任务。数据集提供的细粒度标注也促进了可解释性AI技术的发展，使研究者能够更清晰地理解代理在长链任务中的决策过程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集