VeriGUI
收藏VeriGUI: Verifiable Long-Chain GUI Dataset
📖 概述
VeriGUI是一个可验证的长链GUI数据集,旨在促进在真实计算机环境中运行的通用GUI代理的开发和评估。该数据集强调以下两个关键维度:
- 长链复杂性:任务分解为一系列相互依赖的子任务,涉及数百个步骤。
- 子任务级可验证性:支持在每个子任务内的多样化探索策略,同时确保每个子任务级目标可验证且一致。
✨ 关键特性
🔗 长链复杂性
- 任务需要2-15个相互依赖的步骤和数百个GUI操作。
- 跨越多个应用程序和网页的复杂工作流。
- 需要自适应推理和规划的现实任务依赖关系。
- 任务反映真实世界的计算机使用模式。
✅ 子任务级可验证性
- 在每个中间步骤进行细粒度评估。
- 支持多样化探索策略的同时确保子任务目标可验证。
- 在步骤内支持开放式交互,代理可以选择不同的路径实现相同目标。
- 详细的监督信号,便于错误诊断和代理改进。
🌐 多环境覆盖
- 网络环境:各种网站、在线服务和网络应用程序。
- 桌面环境:办公软件、操作系统和专业工具(待完成)。
- 跨平台任务转换和交互。
👥 人工专家标注
- 所有轨迹均由人工专家精心创建和标注。
- 高质量的任务指令和步骤级标注。
- 已验证的任务可行性和现实工作流模式。
🚀 安装
bash
仅用于评估
pip install openai tqdm
运行代理
pip install openai tqdm camel-ai[all] browser-use
📊 评估
数据集文件为veriGUI.json,格式如下:
json
[
{
"id": "1",
"name": "V1_3",
"type": "global",
"instruction": "xxxxx",
"answer": "xxxxx"
}
]
评估脚本evaluate.py用于评估代理性能,输入文件格式如下:
json
[
{
"id": "1",
"name": "V1_3",
"type": "global",
"instruction": "xxxxx",
"answer": "xxxxx",
"prediction": "xxxxx",
"nsteps": 10
}
]
运行评估脚本: shell python evaluate.py --input_file veriGUI_prediction.json --output_file output.json
计算平均分数: shell python calc_avg.py --input_file output.json
🗂️ 项目结构
agent-workflow-devkit/ ├── agents/ │ └── browseruse.py ├── data/ │ └── veriGUI.json ├── evaluated/ ├── predictions/ ├── evaluate.py ├── batch_evaluate.py ├── calc_avg.py └── utils.py
🎓 引用
bibtex @article{verigui2024, title={VeriGUI: Verifiable Long-Chain GUI Dataset}, author={Authors}, journal={arXiv preprint arXiv:xxxx.xxxxx}, year={2024} }
📄 许可证
本项目采用Apache 2.0许可证。




