macOSWorld|macOSGUI代理数据集|多语言交互数据集
收藏arXiv2025-06-05 更新2025-06-06 收录
下载链接:
https://github.com/showlab/macosworld
下载链接
链接失效反馈资源简介:
macOSWorld是一个全面的多语言交互式基准,用于评估在macOS环境下的GUI代理。该数据集包含了202个多语言交互任务,跨越30个应用程序(其中28个是macOS独有的),任务指导和操作系统界面提供5种语言(英语、中文、阿拉伯语、日语和俄语)。macOSWorld还包括一个专门的安全基准子集,用于评估GUI代理在面对欺骗性攻击时的安全性。通过对六个GUI代理的评估,结果表明专有的计算机使用代理在成功率上领先于开源轻量级研究模型,强调了macOS领域适配的必要性。多语言基准也暴露了常见的弱点,特别是在阿拉伯语方面,与英语相比平均性能下降27.5%。安全基准测试的结果也强调了欺骗性攻击的普遍性,需要立即关注。
提供机构:
新加坡国立大学
创建时间:
2025-06-05
原始信息汇总
macOSWorld 数据集概述
数据集基本信息
- 名称: macOSWorld: A Multilingual Interactive Benchmark for GUI Agents
- 开发者: Pei Yang, Hai Ci, Mike Zheng Shou (Show Lab, National University of Singapore)
- 论文链接: arXiv:2506.04135
- 实现平台: AWS macOS 实例
核心特性
- 交互式 macOS 环境: 包含 30 个原生 macOS 应用及其专属用户界面
- 多语言基准测试: 支持英语、中文、阿拉伯语、日语和俄语的任务和环境
- 安全性评估: 包含专门子集用于测试代理在上下文欺骗攻击下的韧性
环境配置
本地环境配置
- 基础环境: Python 3.9.21, vncdotool 1.2.0, boto3 1.36.20 等
- 模型特定配置:
- GPT-4o: 需安装 timm, easyocr, paddlepaddle 等
- Gemini: 需配置 VertexAI API 凭证
- ShowUI: 需安装 torch 2.6.0, qwen-vl-utils 等
- UI-TARS: 需创建独立环境并启动 vLLM 服务
AWS 环境配置
- 需按照 AWS Configuration Guide 进行设置
基准测试流程
-
执行基准测试:
- 需配置 AWS 凭证和 API 密钥
- 支持多种 GUI 代理和语言组合
- 可调整最大步数、超时等参数
-
中断处理:
- 使用
cleanup.py清理未完成任务
- 使用
-
结果聚合:
- 使用
scripts/aggregate_results.ipynb编译结果
- 使用
支持的 GUI 代理
- OpenAI GPT 系列: gpt-4o, gpt-4o-2024-08-06 等
- Google Gemini 系列: gemini-1.5-pro-002 等
- Anthropic Claude: claude-3-7-sonnet-20250219/computer-use-2025-01-24
- 开源模型: UI-TARS-7B-DPO, showlab/ShowUI-2B
性能优化
- 手动环境恢复: 可绕过快照恢复以节省时间
- 社区实现: 可考虑使用 VMware 本地部署方案
其他实现
- yangpei-comp/macosworld_vmware: 更快速且成本更低的本地 VMware 部署方案
引用
bibtex @article{macosworld, title={macOSWorld: A Multilingual Interactive Benchmark for GUI Agents}, author={Pei Yang and Hai Ci and Mike Zheng Shou}, year={2025}, eprint={2506.04135}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.04135}, }
AI搜集汇总
数据集介绍

构建方式
macOSWorld数据集的构建依托于虚拟化的macOS环境,通过AWS EC2实例运行真实macOS系统,确保交互性和可复现性。数据采集过程涵盖了30个应用程序(其中28个为macOS独占),任务设计遵循多语言支持原则,包括英语、中文、阿拉伯语、日语和俄语五种语言环境。每个任务包含自然语言指令、环境准备配置和评估脚本三部分,通过Amazon Machine Image (AMI)快照和预处理脚本精确还原系统状态。安全评估子集采用AppleScript生成真实的欺骗性弹窗,首次实现非合成环境下的上下文欺骗攻击测试。
特点
该数据集显著特征体现在三个方面:首先,作为首个专注于macOS系统的多语言交互基准,填补了现有基准在苹果生态系统的空白;其次,任务设计覆盖系统导航、文件管理、生产力工具等七大类场景,特别强调对Final Cut Pro、Xcode等macOS独占应用的操作测试;最后,创新性地集成了安全评估模块,通过风格化弹窗测试代理对欺骗性内容的识别能力。多语言支持方面,阿拉伯语等从右向左书写语言的界面布局镜像处理,为研究跨语言GUI交互提供了独特挑战。
使用方法
使用macOSWorld需通过SSH和VNC协议连接虚拟化环境,测试流程分为四个阶段:首先通过AMI快照恢复系统基础状态;其次执行预处理脚本初始化应用环境;随后进入代理与环境的交互循环,代理可获取屏幕截图并执行标准化动作;最终通过评估脚本验证任务完成度。研究者可配置任务指令与系统界面语言的组合(支持5×5种跨语言场景),安全测试子集需单独激活。数据集提供程序化评估接口,支持成功率的自动化统计与跨语言性能对比分析。
背景与挑战
背景概述
macOSWorld是由新加坡国立大学Show Lab的研究团队于2025年6月提出的首个多语言交互式macOS GUI智能体基准测试数据集。该数据集填补了现有操作系统级基准测试在macOS环境、多语言支持和安全性评估三个关键领域的空白。数据集包含202个交互任务,覆盖30个应用程序(其中28个为macOS独占),任务指令和系统界面支持英语、中文、阿拉伯语、日语和俄语五种语言。macOSWorld的创建旨在推动图形用户界面智能体在独特macOS交互范式下的发展,同时促进多语言环境下的技术包容性。
当前挑战
macOSWorld面临的核心挑战体现在两个方面:领域适应性方面,现有开源轻量级研究模型在macOS环境下的成功率不足2%,远低于专有计算机使用代理30%的表现,突显了针对macOS独特GUI范式进行领域适配的迫切需求;多语言处理方面,阿拉伯语任务的平均性能较英语下降27.5%,揭示了智能体在右向左文字处理和界面布局适应上的显著缺陷。数据集构建过程中,研究团队需要克服macOS专属应用程序的交互模式建模、多语言界面布局差异协调,以及真实非合成环境下的安全性评估设计等关键技术难题。
常用场景
经典使用场景
在跨平台GUI代理研究领域,macOSWorld作为首个针对macOS系统的多语言交互式基准测试工具,其经典使用场景聚焦于评估代理在真实macOS环境中的任务执行能力。研究者通过202项涵盖系统导航、文件管理及专业应用操作的多语言任务,系统性地测试代理对macOS特有界面范式(如Dock导航栏、Finder文件系统)的理解程度。典型实验设置要求代理在虚拟化macOS实例中完成从创建DVD映像到使用Xcode开发工作流等复杂操作,同时处理阿拉伯语右至左文本布局等跨语言挑战。
解决学术问题
该数据集有效解决了三大核心学术问题:首先突破了现有基准测试仅覆盖Windows/Linux系统的局限,为macOS这一重要操作系统建立了标准化评估体系;其次通过五语种任务指令与系统界面的精准对齐,首次系统性量化了GUI代理在非英语环境中的性能衰减(如阿拉伯语任务成功率较英语降低27.5%);最后创新的安全测试子集采用原生macOS弹窗设计,揭示了商业计算机使用代理(CUA)在上下文欺骗攻击中高达70%的受骗率,推动了人机交互安全研究范式的革新。
衍生相关工作
该数据集已催生多个标志性研究:UI-TARS团队基于其发现的系统点击偏差开发了坐标校正算法,将macOS元素定位准确率提升18%;ShowUI项目利用安全测试子集构建了弹窗识别防御模块,使代理受骗率下降62%。微软研究院据此提出跨平台代理迁移框架Mac2Win,在保持Windows基准性能前提下,将macOS任务成功率从2%提升至25%。最新开源的OmniParser视觉标注工具也直接集成了其多语言界面标注规范。
以上内容由AI搜集并总结生成
