five

VenusBench-GD

收藏
Hugging Face2025-12-20 更新2025-12-21 收录
下载链接:
https://huggingface.co/datasets/inclusionAI/VenusBench-GD
下载链接
链接失效反馈
官方服务:
资源简介:
VenusBench-GD是一个全面的、多平台的GUI grounding基准测试,旨在解决现有基准测试在数据量、领域覆盖和平台多样性方面的不足。该数据集通过大规模、跨平台的应用程序覆盖、多样化的UI元素和丰富的标注数据,为GUI grounding模型的开发和公平评估提供了支持。此外,VenusBench-GD还提出了一个分层的任务分类法,将grounding任务分为基础和高级两类,包括六个不同的子任务,以从互补的角度评估模型。实验结果表明,通用多模态模型在基础grounding任务上已经达到或超过专门的GUI模型,而高级任务仍然需要专门的GUI模型,尽管这些模型在拒绝grounding方面表现出显著的过拟合和鲁棒性差。这些结果强调了像VenusBench-GD这样的全面、多层次评估框架在指导GUI agent未来发展中的必要性。
创建时间:
2025-12-16
原始信息汇总

VenusBench-GD 数据集概述

数据集基本信息

  • 数据集名称: VenusBench-GD
  • 许可证: MIT
  • 主要任务类别: 图像-文本到文本

数据集简介

VenusBench-GD 是一个全面的、双语的多平台图形用户界面(GUI)基准测试,用于多样化的接地任务。该基准测试旨在解决现有接地基准测试在数据量、领域覆盖范围、平台单一性以及所需专业知识方面的局限性,以促进GUI接地模型的开发和公平评估。

核心贡献与特点

  1. 大规模跨平台覆盖: 涵盖广泛的应用程序、多样化的UI元素和丰富的标注数据。
  2. 高质量数据构建流程: 通过严格的基于抽样的评估验证,其标注准确性高于现有基准测试。
  3. 分层任务分类法: 将接地任务划分为基础和高级类别,包含六个不同的子任务,旨在从互补的角度评估模型。

数据组织结构

数据集文件结构如下:

  • instruction/: 包含数据集标注文件。
    • element_grounding.json
    • spatial_grounding.json
    • visual_grounding.json
    • reasoning_grounding.json
    • functional_grounding.json
    • refusal_spatial.json
  • images/: 包含数据集图像,按平台分类。
    • web/
    • mobile/
    • desktop/
  • assets/
  • meta.json
  • README.md

实验发现

  • 在基础接地任务上,通用多模态模型的表现已匹配甚至超越专门的GUI模型,表明这些任务可能接近性能饱和,区分能力下降。
  • 在高级任务上,特别是需要功能理解或多步推理的任务,专门的GUI模型仍具优势,但它们表现出明显的过拟合和较差的鲁棒性,尤其是在拒绝接地任务上。

使用与引用

  • 项目页面: https://ui-venus.github.io/VenusBench-GD/
  • 评估代码: 请访问相关的Github仓库。
  • 联系作者: 如有关于数据集的建议或问题,请联系作者。
  • 引用信息: bibtex @misc{zhou2025venusbenchgdcomprehensivemultiplatformgui, title={VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks}, author={Beitong Zhou and Zhexiao Huang and Yuan Guo and Zhangxuan Gu and Tianyu Xia and Zichen Luo and Fei Tang and Dehan Kong and Yanyi Shang and Suling Ou and Zhenlin Guo and Changhua Meng and Shuheng Shen}, year={2025}, eprint={2512.16501}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.16501}, }
搜集汇总
数据集介绍
main_image_url
构建方式
在图形用户界面(GUI)智能体研究领域,数据集的构建质量直接关系到模型评估的公正性与前沿探索的深度。VenusBench-GD通过精心设计的高质量数据构建流程,实现了跨平台、大规模的数据采集与标注。该流程覆盖了网页、移动端及桌面端等多种平台,广泛采集了多样化的应用程序界面,并对丰富的UI元素进行了细致标注。通过严格的抽样评估验证,其标注准确性超越了现有基准,为GUI基础任务提供了可靠的数据支撑。
使用方法
对于研究人员而言,利用VenusBench-GD进行评估能够为GUI智能体的开发提供明确的指引。数据集的结构清晰,标注文件与图像资源按平台与任务类别组织,便于直接加载与分析。用户可通过访问项目GitHub仓库获取评估代码,以复现或对比论文中的模型结果。该基准支持对模型在基础与高级任务上的分层评估,有助于识别模型在真实应用场景中的优势与不足,特别是其在复杂推理与拒绝处理方面的鲁棒性,从而推动该领域向更全面、更稳健的方向发展。
背景与挑战
背景概述
图形用户界面(GUI)的视觉定位是构建智能GUI代理的核心基础,其研究旨在使模型能够精准理解并关联界面中的视觉元素与自然语言指令。2025年,由周北同等研究人员提出的VenusBench-GD数据集应运而生,旨在应对现有基准在数据规模、领域覆盖及平台多样性方面的显著局限。该数据集构建了一个跨平台、大规模的双语基准,覆盖网页、移动端及桌面端等多种应用场景,通过引入分层任务分类法,将定位任务细分为基础与高级两大类共六项子任务,从而为GUI智能体的能力评估提供了更为全面和层次化的框架。这一工作不仅推动了GUI理解领域向更通用、更鲁棒的方向发展,也为多模态模型与专用GUI模型的能力对比提供了关键洞见。
当前挑战
在GUI视觉定位领域,核心挑战在于如何让模型在复杂多变的界面环境中,准确执行从基础元素识别到高级功能推理的多样化任务。VenusBench-GD所针对的领域挑战,正是现有基准往往局限于单一平台或狭窄领域,导致模型评估缺乏普适性与区分度,难以反映真实应用场景中的综合性能。在数据集构建过程中,研究者们面临的主要挑战包括:设计一套能够高效处理多平台、多语言界面数据的高质量标注流程,以确保标注精度超越以往基准;同时,定义并构建涵盖空间定位、视觉定位、推理定位、功能定位及拒绝定位等高级任务,这些任务要求模型具备深层的语义理解和多步推理能力,其数据收集与标注本身即具有较高的复杂性与严谨性要求。
常用场景
经典使用场景
在图形用户界面(GUI)智能体开发领域,VenusBench-GD数据集为多平台GUI基础任务提供了标准化的评估框架。该数据集广泛应用于模型性能的层次化评估,涵盖从基础元素定位到高级功能理解等六项子任务,为研究者提供了全面、跨平台的测试环境,有效推动了GUI基础模型的公平比较与迭代优化。
解决学术问题
该数据集解决了GUI基础研究中数据规模有限、平台覆盖狭窄以及评估任务单一等核心问题。通过构建大规模、多平台且标注精准的基准,VenusBench-GD揭示了通用多模态模型在基础任务上已接近性能饱和,而高级任务仍需专用模型突破过拟合与鲁棒性瓶颈,为领域发展提供了关键方向指引。
实际应用
在实际应用中,VenusBench-GD支撑了自动化软件测试、无障碍交互辅助及智能办公助手等场景的开发。其涵盖的网页、移动端与桌面端界面数据,能够训练模型精准理解UI元素的功能与空间关系,从而提升智能体在真实环境中的操作准确性与场景适应能力。
数据集最近研究
最新研究方向
在图形用户界面智能体研究领域,VenusBench-GD数据集的推出标志着对多平台GUI基础任务评估范式的重大革新。该数据集通过构建涵盖网页、移动端和桌面端的双语大规模基准,突破了以往基准在数据规模、领域覆盖和平台多样性上的局限。其前沿研究聚焦于分层任务分类法,将基础任务与高级任务分离,揭示了通用多模态模型在基础定位任务上已接近性能饱和,而高级任务如功能理解与多步推理仍依赖专用GUI模型,但存在显著的过拟合与鲁棒性不足问题。这一发现推动了学界重新审视GUI智能体的评估体系,强调需通过综合性、多层次的任务设计来更精准地引导模型在真实场景中的泛化与推理能力发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作