FineState-Bench

Name: FineState-Bench
Creator: 东北大学，中国
Published: 2025-08-12 23:12:42
License: 暂无描述

arXiv2025-08-12 更新2025-08-15 收录

下载链接：

https://github.com/AnonymousThewarehouse/FineState-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

FineState-Bench是一个针对GUI代理细粒度状态控制的全面基准测试框架。该数据集由东北大学和MBZUAI创建，包含2257个任务基准，涵盖了桌面、Web和移动平台。数据集旨在量化细粒度控制能力，并使用四阶段指标进行全面的感知到控制的评估。此外，FineState-Bench还提供了一个即插即用的视觉诊断助手（VDA），用于对精细操作中的感知和定位进行分析。实验结果表明，最先进的模型在细粒度交互精度上仅达到32.8%。FineState-Bench的所有资源都是开源的。

FineState-Bench is a comprehensive benchmarking framework for GUI agent fine-grained state control. Created by Northeastern University and MBZUAI, this dataset encompasses 2257 task benchmarks across desktop, Web, and mobile platforms. The dataset is designed to quantify fine-grained control capabilities and employs a four-phase metric for a comprehensive assessment from perception to control. Furthermore, FineState-Bench provides a plug-and-play Visual Diagnosis Assistant (VDA) for analyzing perception and localization in fine-grained operations. Experimental results indicate that state-of-the-art models achieve only a 32.8% precision in fine-grained interaction. All resources of FineState-Bench are open-source.

提供机构：

东北大学，中国

创建时间：

2025-08-12

原始信息汇总

FineState-Bench 数据集概述

基本信息

名称: FineState-Bench
类型: GUI代理细粒度状态控制基准测试
论文: FineState-Bench: A Comprehensive Benchmark for Fine-Grained State Control in GUI Agents
代码仓库: GitHub Repository
模型仓库: HuggingFace Hub
许可证: MIT

核心特点

细粒度状态控制: 专注于精确状态操作而非粗粒度任务完成
多平台覆盖: 支持桌面、网页和移动环境
诊断框架: 集成VDA(视觉诊断助手)进行定量瓶颈分析
双边界框标注: 分离定位和交互能力评估
多维指标: 四阶段评估系统(Loc SR, Int SR, SA-Locate SR, SA-Interact SR)
高质量任务: 包含2,257个静态交互场景
即插即用VDA: 支持控制实验隔离视觉基础效应
广泛模型支持: 评估13+代表性模型

数据集结构

FineState-Bench/ ├── config/ │ └── models_config.yaml ├── evaluation/ │ ├── benchmark.py │ ├── LLM_eval.py │ ├── Plug_and_play_model.py │ ├── model_clients.py │ ├── model_client/ │ │ ├── chatglm_client.py │ │ ├── ui_r1_client.py │ │ ├── minicpmv_client.py │ └── utils.py ├── desktop.sh ├── web.sh ├── mobile.sh ├── test_all_models_distributed.py └── download.py

评估指标

定位成功率(Loc SR): 交互点是否落在目标UI元素边界框内
交互成功率(Int SR): 交互是否成功使UI元素达到目标状态
单动作定位成功率(SA-Locate SR): 首次动作即准确定位
单动作交互成功率(SA-Interact SR): 首次动作即完成定位和状态操作

支持模型

商业模型

GPT-4o
Claude-3.5-Sonnet
Gemini-2.5-Flash

开源GUI代理

UGround-7B
OS-Atlas-7B
CogAgent-9B
Jedi-7B-1080p
ShowUI-2B

平台特定模型

MobileVLM V2-3B/7B
Holo1-7B
AgentCPM-GUI-8B

系统要求

Python 3.8+
PyTorch 2.0+
Transformers 4.30+
CUDA-capable GPU(离线模型需要)

搜集汇总

数据集介绍

构建方式

FineState-Bench数据集通过多平台筛选和精细标注构建，涵盖桌面、网页和移动端三大平台，包含2257个高质量静态样本。数据收集过程结合了视觉语言模型（VLM）预过滤和人工审核，确保样本的多样性和复杂性。每个样本均标注了精确的边界框、详细的状态信息和自然语言指令，采用双边界框设计（定位边界框和交互边界框）以分别评估模型的定位能力和精确控制能力。

使用方法

FineState-Bench支持多维度的评估指标，包括定位成功率（Loc SR）、交互成功率（Int SR）等，适用于测试GUI代理在细粒度控制任务中的表现。研究人员可通过加载数据集JSON文件，结合提供的标注和指令，评估模型在静态和动态场景下的性能。此外，VDA模块可作为插件集成到现有模型中，通过提供目标定位信息来诊断视觉瓶颈，从而优化模型设计。

背景与挑战

背景概述

FineState-Bench是由东北大学和MBZUAI的研究团队于2025年推出的首个专注于图形用户界面(GUI)代理细粒度状态控制的综合性基准测试。该数据集针对当前GUI代理评估框架普遍存在的粗粒度任务完成度评估缺陷，创新性地提出了涵盖桌面、网页和移动端三大平台的2257项细粒度任务基准，并配套开发了可插拔的视觉诊断助手(VDA)模块。作为NeurIPS 2025会议收录的研究成果，该数据集通过四阶段评估指标体系和双边界框标注方案，首次实现了对GUI代理感知-控制能力的量化解耦分析，为提升智能代理在真实场景中的精确操作能力建立了新的评估标准。

当前挑战

该数据集主要解决GUI代理在细粒度状态控制领域的两大核心挑战：在领域问题层面，现有基准普遍存在评估鸿沟，过度关注粗粒度任务完成率而忽视精确值调节、特定选项选择等关键细粒度操作能力；在构建技术层面，研究团队需要克服多平台UI元素标注一致性、交互状态量化定义、以及视觉定位误差与高层推理失败的诊断解耦等难题。实验表明，最先进模型在细粒度交互准确率上仅达32.8%，证实了视觉定位能力已成为制约GUI代理发展的主要瓶颈。

常用场景

经典使用场景

FineState-Bench作为首个专注于GUI代理细粒度状态控制的基准测试工具，其经典使用场景在于评估多模态模型在图形用户界面中的精确交互能力。该数据集通过涵盖桌面、网页和移动端三大平台的2257项任务，系统性地测试模型对滑块调节、选项切换、日期选择等精细化操作的执行准确度。研究人员可借助其四阶段指标（定位成功率、交互成功率等），定量分析模型在视觉感知与动作执行间的耦合关系，尤其适用于验证LVLM模型在真实场景下的微操表现。

解决学术问题

该数据集有效解决了GUI代理评估领域长期存在的两大核心问题：传统基准测试过度依赖粗粒度任务完成度而忽视真实应用所需的微操能力，以及缺乏对失败原因的定量归因分析。通过引入视觉诊断助手(VDA)模块，首次实现了视觉定位缺陷与高层推理错误的解耦分析。实验表明当前最先进模型在细粒度交互任务中仅达32.8%准确率，揭示了视觉基础能力才是制约GUI代理性能的主要瓶颈，这一发现为后续研究指明了优化方向。

实际应用

在实际应用层面，FineState-Bench可直接指导智能助手产品的功能优化。其测试场景覆盖亮度调节、色彩选择、表格排序等真实办公场景中的高频微操需求，例如将手机亮度精确调整为30%或选择色盘第四行第二列的特定颜色。企业可依据基准结果针对性增强产品的视觉定位模块，医疗领域远程操作系统也可参照该标准验证界面操控精度，确保手术机器人等关键场景的操作可靠性。

数据集最近研究