OmniEAR

Name: OmniEAR
Creator: 浙江大学
Published: 2025-08-08 01:54:15
License: 暂无描述

arXiv2025-08-08 更新2025-08-09 收录

下载链接：

https://github.com/ZJU-REAL/OmniEmbodied

下载链接

链接失效反馈

官方服务：

资源简介：

OmniEAR是一个全面评估语言模型在具身任务中推理能力的框架。该数据集涵盖了1500个场景，跨越家庭和工业领域，通过文本表示连续的物理属性和复杂的空间关系。OmniEAR的目的是评估模型在理解物理属性如何影响动作、能力以及协调需求方面的能力，从而揭示当前模型在具身推理方面的局限性。

OmniEAR is a comprehensive framework for evaluating the reasoning capabilities of language models in embodied tasks. This dataset encompasses 1500 scenarios across household and industrial domains, utilizing text to represent continuous physical properties and complex spatial relationships. The goal of OmniEAR is to evaluate models' capacity to comprehend how physical properties impact actions, functional capabilities, and coordination demands, thus uncovering the current limitations of existing models in embodied reasoning.

提供机构：

浙江大学

创建时间：

2025-08-08

原始信息汇总

OmniEAR 数据集概述

基本信息

数据集名称: OmniEAR (OmniEmbodied)
研究论文: Benchmarking Agent Reasoning in Embodied Tasks
机构: 浙江大学
许可证: MIT
GitHub Stars:

数据集简介

OmniEAR 是一个评估语言模型在具身任务中推理能力的综合框架，专注于物理交互、工具使用和多智能体协作的动态推理。

关键贡献

新颖评估框架: 首个通过需要理解物理属性决定动作、能力和协作需求的场景来评估具身推理的框架。
全面基准: EAR-Bench 提供1,500个具有连续物理属性和动态能力的场景。
基础洞察: 实证显示当前语言模型缺乏核心具身推理能力，性能下降超过60%。

数据集统计

基础统计

总场景数: 1,500
总任务文件: 1,481
总任务实例: 16,592
交互对象: 64,057
空间节点（房间）: 6,634
平均每场景对象数: 42.7
平均每场景房间数: 4.4
协作智能体对: 1,481

对象类别与材料

对象分布: 容器 (27.5%)、工具 (23.6%)、电器 (14.0%)、家具 (9.7%)、消耗品 (7.6%)、其他 (17.6%)
主要材料: 塑料 (21.5%)、金属 (17.6%)、木材 (12.9%)、玻璃 (9.8%)、织物 (7.9%)、陶瓷 (6.0%)

领域覆盖

应用领域: 实验室 (39.0%)、办公室 (18.8%)、工业 (11.5%)、医疗 (6.2%)、家庭 (6.2%)、教育 (4.2%)、零售 (3.2%)、服务 (2.0%)、娱乐 (1.8%)、交通 (1.5%)
房间类型: 实验室 (28.3%)、存储 (18.6%)、工作区 (14.9%)、办公室 (11.5%)、车间 (8.2%)

任务分类

单智能体任务

直接命令 (L1): 基本指令跟随
属性推理 (L2): 连续属性比较和推理
工具使用 (L2): 通过工具操作动态获取能力
复合推理 (L3): 集成多步规划与多重挑战

多智能体任务

显式协作 (L1): 明确的协调指令
隐式协作 (L2): 自主协调需求识别
复合协作 (L3): 需要工具使用和协调的复杂多智能体场景

数据集访问

EAR-Bench 数据集: 位于 data/ 目录，包括任务定义、场景配置和评估指标。
专家轨迹 SFT 数据集: 高质量专家演示轨迹 (1,982 样本)，托管于 🤗 HuggingFace。

主要结果

性能下降: 所有模型在从显式指令到基于约束的推理时表现显著下降。
规模效应: 较大模型表现更好，但在复合推理任务中仍困难。
微调限制: 监督微调显著提高单智能体性能，但对多智能体增益有限。

引用

bibtex @misc{wang2025omniearbenchmarkingagentreasoning, title={OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks}, author={Zixuan Wang and Dingming Li and Hongxing Li and Shuo Chen and Yuchen Yan and Wenqi Zhang and Yongliang Shen and Weiming Lu and Jun Xiao and Yueting Zhuang}, year={2025}, eprint={2508.05614}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.05614}, }

搜集汇总

数据集介绍

构建方式

OmniEAR数据集通过文本环境表示构建，采用有向图结构Gt=(Vt, Et, At)对物理空间进行形式化建模。节点集Vt包含空间、物体和智能体三类实体，边集Et编码空间关系，属性字典At存储重量、温度等连续物理属性。任务通过四元组T=(Sinit, I, Ggoal, Atask)定义，其中Sinit指定初始环境状态，I提供自然语言指令，Ggoal定义成功条件，Atask标识参与智能体。该框架通过EAR-Sim组件实现动态工具能力绑定系统，支持214种动作类型和15,134个工具对象的交互建模。

特点

OmniEAR数据集包含1,500个跨家庭和工业领域的场景，涵盖64,057个交互对象和6,381种独特属性类型。其核心特点体现在三方面：采用连续物理属性建模，支持对重量、材料等属性的推理；实现动态工具能力扩展机制，允许智能体通过抓取工具获得新能力；设计隐式协作任务，要求智能体基于物理约束自主判断协作需求。数据集特别包含39%实验室场景和19%办公场景，通过6,634个空间节点构建复杂空间关系，平均每个场景包含42.7个交互对象和4.4个房间。

使用方法

使用OmniEAR时需遵循特定协议：单智能体任务采用'Thought-Action'严格输出格式，要求先EXPLORE探索再GOTO接近目标；多智能体任务需遵循CORP协作协议，包括CORP_GRAB→CORP_GOTO→CORP_PLACE的标准运输序列。评估时支持两种配置：单智能体测试独立推理能力，多智能体采用集中控制模式。系统提供16,592个专家演示轨迹(平均8.7步)作为参考，并包含自动化验证流程检查1,300项空间关系。对模型输出的动作序列Π=(π1,...,πT)，系统会验证其是否将环境从Sinit转换为满足Ggoal中所有谓词的Sfinal状态。

背景与挑战

背景概述

OmniEAR是由浙江大学的研究团队于2025年提出的一个综合性基准框架，旨在评估语言模型在具身任务中的物理推理能力。该数据集通过文本环境表示，建模了1500个涵盖家庭和工业领域的场景，重点关注动态能力获取和自主协作策略。其创新性在于突破了现有基准的静态工具集和显式协作指令限制，首次系统性地评估了模型基于物理约束的推理能力。作为具身人工智能领域的重要里程碑，OmniEAR揭示了语言模型在物理交互、工具使用和多智能体协调方面的根本性局限，为下一代具身系统的研发提供了严谨的评估标准。

当前挑战

OmniEAR针对的领域挑战包括：1)具身推理中物理约束的动态建模问题，要求模型理解重量、材料等连续属性对动作可行性的影响；2)自主协作决策问题，需智能体识别任务何时超出个体能力范围。构建过程中的技术挑战体现在：1)文本环境表示需精确编码64057个对象的6381种物理属性；2)动态工具-能力绑定系统需实时管理214种动作类型的可用性；3)多智能体场景的隐式协作验证需确保物理约束触发的协调行为符合现实逻辑。实验显示当前模型在需要物理推理的复合任务中失败率超过50%，暴露出现有架构在具身推理方面的本质缺陷。

常用场景

经典使用场景

OmniEAR数据集作为评估具身智能体推理能力的基准，其经典使用场景集中在多模态任务中的物理约束推理。在实验室、工业及家庭环境中，智能体需通过文本化环境表征理解物体的重量、材质等连续属性，动态获取工具并自主决策协作策略。例如，在“移动工业级线轴至传送带”任务中，模型需综合空间关系与物体属性，判断是否需要协作或工具辅助，体现了对物理现实与任务需求的理解。

衍生相关工作

OmniEAR催生了多个经典研究方向：1）动态能力获取架构（如Deepseek-R1的强化学习适配器），通过工具使用轨迹微调提升单任务性能；2）物理约束注意力机制（QwQ-32B），过滤环境噪声以优化协作决策；3）混合符号-神经模型（如Gemini-2.5的模块化推理），将连续属性转化为可操作的逻辑谓词。这些工作均引用该数据集作为核心评估基准。

数据集最近研究