EMBODIED WEB AGENTS Benchmark

Name: EMBODIED WEB AGENTS Benchmark
Creator: 加利福尼亚大学洛杉矶分校
Published: 2025-06-19 01:58:17
License: 暂无描述

arXiv2025-06-19 更新2025-06-22 收录

下载链接：

https://embodied-web-agent.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

EMBODIED WEB AGENTS Benchmark是一个包含约1500个任务的基准数据集，旨在评估人工智能体在物理和数字领域之间无缝转换的能力。该数据集涵盖了烹饪、导航、购物、旅游和地理定位等多个领域，需要人工智能体在感知、行动和网络推理之间进行协调。数据集提供了一个统一的模拟平台，集成了真实的3D室内和室外环境以及功能性的网络接口，允许人工智能体在物理和数字空间中无缝交互。该数据集可用于评估当前人工智能系统的能力，并推动未来人工智能体在集成智能领域的发展。

The EMBODIED WEB AGENTS Benchmark is a benchmark dataset comprising approximately 1,500 tasks, which aims to evaluate the capability of AI Agents to seamlessly transition between physical and digital domains. Covering multiple domains such as cooking, navigation, shopping, tourism, and geolocation, this dataset requires AI Agents to coordinate perception, action, and web reasoning. It offers a unified simulation platform that integrates realistic 3D indoor and outdoor environments alongside functional web interfaces, enabling AI Agents to interact seamlessly across both physical and digital spaces. This benchmark can be utilized to assess the capabilities of current AI systems and foster the advancement of future AI Agents in the domain of integrated intelligence.

提供机构：

加利福尼亚大学洛杉矶分校

创建时间：

2025-06-19

搜集汇总

数据集介绍

构建方式

EMBODIED WEB AGENTS Benchmark的构建基于一个统一的仿真平台，该平台深度融合了真实的3D室内外环境与功能性网络接口。通过整合AI2-THOR的室内场景、Google Earth的户外导航环境以及包括维基百科、在线商店、食谱网站和地图服务在内的网络接口，该平台为智能体提供了在物理与数字空间无缝交互的能力。数据集的构建过程涉及从多个城市中筛选具有复杂街景布局的地点，利用Google Street View和Google Earth API获取真实街景数据，并通过人工验证确保任务的准确性和有效性。此外，烹饪任务通过在线食谱与AI2-THOR厨房场景的匹配生成，并引入干扰因素以增加任务复杂度。

特点

EMBODIED WEB AGENTS Benchmark以其跨领域任务设计著称，涵盖了烹饪、导航、购物、旅游和地理定位五大领域，共计约1.5k个任务。这些任务要求智能体在物理感知与网络推理之间进行协调，系统评估其在跨领域环境中的综合智能表现。数据集的特点在于其高度真实的仿真环境与功能性网络接口的紧密结合，以及任务的多样性和复杂性，旨在推动智能体在物理与数字世界中的无缝交互能力。此外，数据集还通过引入干扰因素和长轨迹规划任务，进一步提升了任务的挑战性。

使用方法

使用EMBODIED WEB AGENTS Benchmark时，研究人员可通过统一的仿真平台部署智能体，执行跨领域的任务。平台支持智能体在3D环境中进行物理感知和动作执行，同时通过网络接口获取和利用动态、非结构化的网络信息。评估时，可采用四项核心指标：整体准确率、网络任务完成率、实体任务完成率和整体完成进度，全面衡量智能体在跨领域任务中的表现。实验表明，当前最先进的LLM智能体在跨领域整合方面仍存在显著性能差距，这为未来研究提供了明确的方向和挑战。

背景与挑战

背景概述

EMBODIED WEB AGENTS Benchmark是由加州大学洛杉矶分校的研究团队于2025年提出的新型人工智能评估体系，旨在解决物理世界与数字世界智能融合的核心科学问题。该数据集构建于统一的仿真平台之上，整合了AI2-THOR室内环境、Google Earth室外场景及功能性网页接口，包含烹饪、导航、购物等五大类1500项跨领域任务。作为首个系统评估实体感知与网络推理协同能力的基准，其创新性地将3D环境交互与网页操作无缝衔接，为智能体在混合现实中的综合表现提供了标准化测试框架。该成果发表于计算机视觉顶级会议，对促进具身智能与网络智能的融合发展具有里程碑意义。

当前挑战

该数据集面临双重维度挑战：在领域问题层面，需解决抽象网络指令与实体感知的语义对齐难题（如菜谱文本与食材状态匹配）、跨领域决策的动态规划问题（如地图导航与实时环境冲突调解）；在构建过程中，存在多模态数据融合的技术瓶颈（3D环境与网页API的实时交互）、任务复杂度的平衡挑战（长周期任务中物理动作与网络操作的交替执行），以及评估指标的设计困境（需同时衡量网络操作准确率与实体任务完成度）。实验表明，当前最先进模型的跨域协调失败率高达66.6%，凸显了智能体在环境切换与多模态推理方面的根本性缺陷。

常用场景

经典使用场景

EMBODIED WEB AGENTS Benchmark数据集在人工智能领域中被广泛用于评估智能体在物理世界与数字世界之间无缝切换的能力。该数据集通过整合真实的3D室内外环境与功能性网络接口，为研究者提供了一个统一的仿真平台。其经典使用场景包括烹饪、导航、购物、旅游和地理定位等任务，这些任务要求智能体在物理感知与网络推理之间进行协调。例如，在烹饪任务中，智能体需要根据在线食谱匹配物理食材，并在虚拟厨房中执行烹饪步骤，这一过程充分展现了数据集在跨领域智能评估中的独特价值。

衍生相关工作

围绕该数据集已衍生出多项创新性研究。在算法层面，研究者提出了新型的多模态融合架构，如3D-LLM和Palm-E等模型，旨在增强智能体对物理观察与网络知识的联合理解。在评估方法上，后续工作开发了更细粒度的跨领域性能指标，如Web-only Accuracy和Embodied-only Accuracy，以精确诊断智能体在不同领域的表现差异。此外，数据集还催生了VisualWebArena等扩展平台，进一步丰富了网络与物理环境交互的任务多样性。

数据集最近研究