VAB-WebArena-Lite
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/THUDM/VisualAgentBench/blob/main/VAB-WebArena-Lite
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是对原始812项任务的WebArena进行了精简,形成了一个包含165项任务的小集合,其中答案和评判功能都经过了人工验证,旨在加快评估速度并确保评判的准确性。此外,该数据集的目标是为自主代理在网页浏览任务中的性能提供一个更快且更精确的评估方式。其所涉及的任务类型为网页浏览评估。
This dataset is a condensed subset of the original WebArena, which originally contained 812 tasks, and includes 165 tasks in total. Both the task answers and evaluation criteria have been manually verified, with the objectives of accelerating the evaluation process and ensuring assessment accuracy. Furthermore, this dataset aims to offer a faster and more precise evaluation method for autonomous agents' performance in web browsing tasks, and its targeted task type is web browsing evaluation.
提供机构:
THUDM
搜集汇总
数据集介绍

背景与挑战
背景概述
VAB-WebArena-Lite是一个包含165个任务的精选子集,源自WebArena数据集,旨在优化任务正确性和测试效率。该数据集支持多种评估模式,包括视觉代理和文本模态评估,并提供了详细的安装和配置指南。
以上内容由遇见数据集搜集并总结生成



