EgoXR-GUI

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Anonymous114/EgoXR-GUI

下载链接

链接失效反馈

官方服务：

资源简介：

EgoXR-GUI是首个专门针对扩展现实（XR）的图形用户界面（GUI）定位基准测试数据集。与传统的桌面或移动GUI基准测试不同，该数据集旨在评估多模态大语言模型（MLLMs）在混合数字-物理环境中对嵌入式虚拟界面的推理能力。数据集包含1,070个精心策划的示例，这些示例采集自Apple Vision Pro及其他3D/XR环境。每个样本包括以下字段：唯一标识符（task_id、annotation_id、sample_id）、XR头戴设备捕获的第一人称视角图像（image）、英文和中文的定位指令（instruction_en、instruction_cn）、表示用户注意力的眼动追踪坐标（gaze_point）、包含上下文标签的结构化字典（choices，如is_same_window、ui_type、platform等）、目标边界框的几何信息（target_bbox，包含坐标、尺寸、旋转和标签）、用于数据查看器可视化的标准化边界框格式（objects）以及质量控制布尔指标（is_ok）。数据集支持三种任务类型：直接定位（简单识别）、空间定位（基于3D空间属性的UI元素推理）和语义定位（基于UI元素的文本或图标语义推理）。适用于视觉定位和物体检测任务，属于计算机视觉、多模态和第一人称视角（XR/GUI）研究领域。

EgoXR-GUI is the first extended reality (XR)-specific graphical user interface (GUI) localization benchmark dataset. Unlike traditional desktop or mobile GUI benchmarks, this dataset aims to evaluate the reasoning capabilities of multimodal large language models (MLLMs) for embedded virtual interfaces in mixed digital-physical environments. The dataset contains 1,070 carefully curated examples collected from Apple Vision Pro and other 3D/XR environments. Each sample includes the following fields: unique identifiers (task_id, annotation_id, sample_id), first-person perspective images captured by XR headsets (image), localization instructions in English and Chinese (instruction_en, instruction_cn), eye-tracking coordinates representing user attention (gaze_point), a structured dictionary with contextual labels (choices, such as is_same_window, ui_type, platform, etc.), geometric information of the target bounding box (target_bbox, including coordinates, dimensions, rotation, and labels), a standardized bounding box format for data viewer visualization (objects), and a quality control Boolean indicator (is_ok). The dataset supports three task types: direct localization (simple recognition), spatial localization (reasoning about UI elements based on 3D spatial attributes), and semantic localization (reasoning based on the text or icon semantics of UI elements). It is suitable for visual localization and object detection tasks, belonging to the research fields of computer vision, multimodal, and first-person perspective (XR/GUI).

创建时间：

2026-05-07

原始信息汇总

EgoXR-GUI：物理-数字扩展现实中的图形用户界面基准测试

EgoXR-GUI 是首个专为扩展现实（XR）环境设计的图形用户界面（GUI）定位基准数据集。它主要用于评估多模态大语言模型（MLLMs）在混合数字-物理环境中对虚拟界面的推理能力。

核心特征

数据集规模：包含 1,070 个经过精心挑选的样本。
硬件平台：基于 Apple Vision Pro 及其他 3D/XR 设备采集。
任务类型：
1. 直接定位：简单界面元素识别。
2. 空间定位：基于 UI 元素的 3D 空间属性进行推理。
3. 语义定位：基于 UI 元素的文本或图标语义进行推理。
支持语言：英文 (instruction_en) 和中文 (instruction_cn)。

数据字段

每条样本包含以下字段：

task_id 与 annotation_id：用于追踪特定视觉任务的唯一标识符。
sample_id：关联回原始数据集源的外部样本标识符。
image：从 XR 头显/环境中捕获的自我中心视角图像。
instruction_en / instruction_cn：英文和中文的定位提示指令。
gaze_point：表示用户注意力的眼动追踪坐标 [x, y]。
choices：结构化字典，包含上下文标签（如 is_same_window、ui_type、platform、scenario、place、activity、task type）。
target_bbox：精确的几何目标，包含坐标、尺寸、空间旋转角度和标签。
objects：以 Hugging Face 标准格式表示的边界框，用于数据可视化。
is_ok：质量控制布尔值指示器。

许可证与标签

许可证：cc-by-4.0
任务类别：视觉定位 (visual-grounding)、物体检测 (object-detection)
相关标签：computer-vision, visual-grounding, xr, egocentric, gui, apple-vision-pro, instruction-following, multimodal

搜集汇总

数据集介绍

构建方式

EgoXR-GUI作为首个面向扩展现实（XR）环境的图形用户界面（GUI）定位基准数据集，其构建过程融合了混合数字-物理空间的独特属性。数据集包含1,070个经过精心筛选的样本，源自Apple Vision Pro及其他3D/XR环境中的自我中心视角捕获。通过将原始内部的大量标注精简为高质量目标定位指令，确保了数据的精确性与多样性。每条样本均包含任务标识、注视点坐标、目标边界框及上下文标签，覆盖直接定位、空间定位与语义定位三种任务类型，并同时支持英文与中文指令。

特点

该数据集的核心特色在于其首次将GUI定位任务从传统的桌面或移动端扩展至XR领域，评估多模态大语言模型在虚实融合环境中的推理能力。样本涵盖多种空间场景，包含注视点与目标边界框的精确标注，以及丰富的上下文标签（如平台、场景、活动类型），使得模型能够学习基于文本、图标语义乃至三维空间属性的复杂定位逻辑。所有数据均经过严格的质量控制，确保可作为可靠的基准测试工具。

使用方法

研究者可将此数据集用于视觉定位与目标检测任务的训练与评估。使用时应加载图像与对应的中英文指令，结合 gaze_point 字段提供的注视点先验信息，以及 target_bbox 中的精确空间坐标与旋转角度，对模型进行监督学习。通过 choices 中的上下文标签，可进一步分析模型在不同XR场景下的表现差异。建议采用标准的目标检测或视觉定位评估指标（如IoU）来衡量模型性能，并利用 is_ok 字段筛选高质量样本进行测试。

背景与挑战

背景概述

随着扩展现实（XR）技术的迅猛发展，用户界面正从传统的平面交互向虚实融合的沉浸式体验演进。然而，现有的视觉定位基准如RefCOCO等，多聚焦于静态图像中的自然物体，难以应对XR环境中虚拟界面与物理空间交织的复杂场景。EgoXR-GUI数据集于2024年由多模态人工智能研究团队创建，依托Apple Vision Pro等前沿设备，首次构建了针对XR场景的图形用户界面定位基准。该数据集包含1070个精心标注的样本，涵盖直接定位、空间推理及语义理解三类任务，旨在评估多模态大模型在混合现实环境中理解虚拟界面的能力。其发布填补了XR领域缺乏标准化GUI定位基准的空白，为人机交互与计算机视觉的交叉研究提供了重要支撑。

当前挑战

EgoXR-GUI面临的核心挑战源于XR环境的独特性。在领域问题层面，传统定位任务仅需识别平面图像中的目标，而XR中的GUI元素具有三维空间属性（如旋转、深度），且常与动态的物理背景叠加，要求模型不仅理解视觉特征，还需推理空间关系与语义逻辑。在数据构建过程中，采集困难显著，需使用头戴式设备记录第一人称视角，同时精确同步眼动追踪数据与GUI元素的时空坐标。此外，为了确保指令跨越中英文语境并涵盖多样化的交互场景（如按钮、面板、3D控件），标注团队需在虚拟环境中模拟真实用户操作，这对标注精度与一致性提出了极高要求。

常用场景

经典使用场景

EgoXR-GUI数据集专为扩展现实（XR）环境下的图形用户界面（GUI）定位任务而设计，其经典使用场景涵盖三大类：直接定位、空间定位与语义定位。在直接定位任务中，模型需根据自然语言指令（如“点击右上角的设置图标”）从自视角图像中识别目标UI元素；空间定位则要求模型理解虚拟界面在三维空间中的几何属性（如旋转角度、深度层次），从而精准锚定元素；语义定位更进一步，要求模型结合UI元素的文本或图标含义进行推理。该数据集通过1,070个精心标注的样本，将传统2D GUI定位延伸至混合数字-物理的3D交互场景，为多模态大模型在XR平台（如Apple Vision Pro）上的界面理解能力提供了首个标准化评估基准。

解决学术问题

该数据集解决了扩展现实领域中一个核心的学术难题：如何在融合了数字与物理元素的混合环境中，有效评估和提升多模态大语言模型（MLLMs）对虚拟界面的语义理解与空间定位能力。传统GUI定位基准（如RICO、RefCOCO）仅关注2D屏幕截图，忽略了XR环境中UI元素的三维空间关系（如旋转、深度）、用户注视线索（gaze_point）以及跨窗口交互的复杂性。EgoXR-GUI通过引入包含空间旋转、语义标签和注视点的结构化标注，使研究者能够系统性地分析模型在直接定位、空间推理和语义理解三个层次上的表现，从而推动了多模态感知从静态平面向动态三维世界的范式迁移，其影响力体现在开启了XR环境人机交互智能化研究的新方向。

衍生相关工作

EgoXR-GUI数据集发布后，已衍生出多项富有影响力的相关工作。在模型层面，研究者基于其空间定位和语义定位任务，提出了针对XR环境的专用视觉-语言定位架构，如融入3D空间特征的多模态融合网络和基于注视提示的注意力机制模块。在基准测试方面，该数据集催生了针对MLLMs在混合现实场景中GUI理解能力的跨模型评估体系，揭示了现有模型在空间旋转和跨窗口推理上的局限性。此外，有工作将其与眼动数据集结合，探索了视线与语言指令的联合建模方法；还有研究利用其双语言（中/英）标注特性，推动了跨文化界面理解的多语言多模态模型开发。这些衍生工作共同构筑了XR智能化交互的研究生态，持续推动着该领域的学术与实践创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集