OSWORLD-G, JEDI
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://osworld-grounding.github.io
下载链接
链接失效反馈官方服务:
资源简介:
OSWORLD-G是一个包含564个精细标注样本的全面基准,涵盖了文本匹配、元素识别、布局理解、精确操作等多种任务类型。JEDI是一个包含400万个示例的计算机使用接地数据集,通过多视角解耦任务合成。这两个数据集旨在帮助社区解决图形用户界面接地挑战,并训练模型以提高接地能力。数据集已在ScreenSpot-v2、ScreenSpot-Pro和OSWORLD-G等基准上进行评估,结果显示该数据集能够显著提高模型的接地能力,并在OSWorld和WindowsAgentArena等基准上直接提升了代理在复杂任务中的能力。
OSWORLD-G is a comprehensive benchmark containing 564 finely annotated samples, covering multiple task types such as text matching, element recognition, layout understanding, and precise operation. JEDI is a computer-use grounded dataset with 4 million examples, synthesized via multi-view decoupled task synthesis. These two datasets are designed to help the research community address the graphical user interface (GUI) grounding challenge and train models to enhance their grounding capabilities. Both datasets have been evaluated on benchmarks including ScreenSpot-v2, ScreenSpot-Pro, and OSWORLD-G. The evaluation results demonstrate that they can significantly improve the grounding capabilities of models, and directly enhance the performance of AI Agents in complex tasks on benchmarks such as OSWorld and WindowsAgentArena.
提供机构:
香港大学, Salesforce AI Research
创建时间:
2025-05-19
搜集汇总
数据集介绍
构建方式
OSWORLD-G和JEDI数据集的构建采用了多视角任务解耦的方法,涵盖了文本匹配、元素识别、布局理解和精细操作等多种任务类型。OSWORLD-G包含564个精细标注的样本,覆盖了32种不同的UI类型,每个样本均经过实际软件测试验证。JEDI数据集通过合成方法生成了400万条示例,包括图标、组件和布局等多种数据类型,并通过反向工程技术和主流UI组件库的渲染流程获取了丰富的元数据。数据标注过程采用了CVAT平台,并由熟悉软件细节的专业人员完成,确保了标注的高质量和准确性。
使用方法
该数据集主要用于训练和评估GUI基础模型,支持多种使用方式。研究人员可以利用OSWORLD-G进行基准测试,评估模型在文本匹配、元素识别等核心能力上的表现。JEDI数据集适用于大规模模型训练,通过其丰富的合成数据和真实场景增强数据,可显著提升模型在ScreenSpot-v2、ScreenSpot-Pro等基准上的性能。使用时建议采用多尺度模型架构,并重点关注不同界面元素的组合泛化能力。数据集还支持端到端代理系统的开发,通过改进基础能力直接提升复杂计算机任务上的代理性能。
背景与挑战
背景概述
OSWORLD-G和JEDI数据集由香港大学和Salesforce AI Research的研究团队于2025年推出,旨在解决图形用户界面(GUI)基础任务中的核心挑战。该数据集专注于将自然语言指令映射到具体的GUI操作,涵盖了文本匹配、元素识别、布局理解和精细操作等多个任务类型。OSWORLD-G包含564个精细标注的样本,而JEDI则通过多角度任务解耦合成了400万个示例,是目前规模最大的计算机使用基础数据集。这一数据集的推出显著推动了GUI基础模型的发展,并在ScreenSpot-v2、ScreenSpot-Pro和OSWORLD-G等基准测试中取得了最先进的性能。
当前挑战
OSWORLD-G和JEDI数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:传统的GUI基础任务通常被简化为简短的引用表达式,无法捕捉真实交互中所需的软件常识、布局理解和精细操作能力;2) 构建过程的挑战:数据收集需要处理多样化的GUI元素(如下拉菜单、标签界面、滚动条等),并且需要高质量的标注以确保数据的准确性和多样性。此外,合成大规模数据时还需解决噪声过滤、数据平衡和泛化能力等问题。
常用场景
经典使用场景
OSWORLD-G和JEDI数据集在图形用户界面(GUI)基础研究中扮演着重要角色,尤其在自然语言指令与具体界面操作的映射任务中。OSWORLD-G通过564个精细标注的样本,覆盖了文本匹配、元素识别、布局理解和精细操作等多种任务类型,为研究者提供了全面的评估基准。JEDI数据集则通过任务的多视角解耦,合成了400万条示例,成为目前规模最大的计算机使用基础数据集。这些数据集在训练多尺度模型时表现出色,显著提升了模型在ScreenSpot-v2、ScreenSpot-Pro和OSWORLD-G等基准上的性能。
解决学术问题
OSWORLD-G和JEDI数据集解决了GUI基础研究中的多个关键问题。首先,它们填补了现有基准在复杂真实世界交互任务上的不足,如软件常识、布局理解和精细操作能力。其次,通过系统化的数据标注和合成,这些数据集为模型提供了丰富的训练信号,特别是在处理下拉菜单、选项卡界面和滚动条等复杂GUI元素时表现突出。此外,数据集还包含了拒绝不可行指令的任务,增强了模型的鲁棒性和安全性。这些贡献为GUI基础研究提供了新的方向和工具。
实际应用
在实际应用中,OSWORLD-G和JEDI数据集为开发高效的计算机使用代理提供了重要支持。基于这些数据集训练的模型能够准确理解自然语言指令并执行相应的界面操作,如点击按钮、调整滑块和编辑文本等。这些能力在自动化办公、辅助工具和智能客服等场景中具有广泛的应用前景。例如,在自动化办公中,模型可以协助用户完成复杂的文档编辑和表格操作,显著提升工作效率。此外,这些数据集还为多模态代理的开发提供了坚实的基础,推动了人机交互技术的进步。
数据集最近研究
最新研究方向
近年来,OSWORLD-G和JEDI数据集在图形用户界面(GUI)基础研究领域引起了广泛关注。这些数据集专注于解决自然语言指令与GUI元素之间的精确映射问题,涵盖了文本匹配、元素识别、布局理解和精细操作等多个任务类型。特别是在多模态代理和自动化GUI交互方面,这些数据集为研究者提供了丰富的标注样本和合成数据,显著提升了模型在复杂真实场景中的表现。前沿研究方向包括利用大规模合成数据增强模型的泛化能力,以及通过多尺度模型优化GUI元素的定位和操作精度。此外,这些数据集在提升通用基础模型执行复杂计算机任务的能力方面显示出巨大潜力,如OSWorld和WindowsAgentArena等基准测试中的性能提升。其影响不仅限于学术界,还为工业界的自动化工具和智能助手开发提供了重要支持。
相关研究论文
- 1Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis香港大学, Salesforce AI Research · 2025年
以上内容由遇见数据集搜集并总结生成



