ERIQ Benchmark: Embodied Reasoning Intelligence Quotient

github2026-01-01 更新2026-01-05 收录

下载链接：

https://github.com/GenieReasoner/ERIQ

下载链接

链接失效反馈

官方服务：

资源简介：

ERIQ是一个大规模的具体化推理基准，用于机器人操作，包含6,052个问答对，涵盖15个细粒度子任务，组织成4个主要推理维度。该基准将认知推理与运动控制解耦，使得能够独立评估具体化推理能力，而不会混淆动作执行错误。

ERIQ is a large-scale embodied reasoning benchmark for robotic manipulation. It comprises 6,052 question-answer pairs, covers 15 fine-grained subtasks, and is organized into four major reasoning dimensions. This benchmark decouples cognitive reasoning from motion control, enabling independent evaluation of embodied reasoning capabilities without confounding the evaluation with action execution errors.

创建时间：

2025-12-30

原始信息汇总

ERIQ 基准数据集概述

数据集简介

ERIQ 是一个用于机器人操作的大规模具身推理基准，包含 6,052 个问答对，涵盖 15 个细粒度子任务，这些任务被组织在 4 个主要的推理维度中。该基准将认知推理与运动控制解耦，使得能够独立评估具身推理能力，而无需考虑动作执行错误的影响。

基准结构

四大推理维度

空间感知与基础
- 场景理解
- 双视图匹配
- 任务基础
- 相对位置基础
规划与监控
- 动作理解
- 成功检测
- 子任务规划
- 细粒度规划
- 轨迹理解
- 任务进度
错误检测与恢复
- 错误存在性
- 错误分类
- 错误恢复
人类意图理解
- 人类意图理解
- 人机交互

数据集特征

总问答对数量：6,052
任务场景：涵盖5个领域的100+个不同场景
- 家庭 (35%)
- 餐厅 (20%)
- 超市 (20%)
- 工业 (15%)
- 办公室 (10%)
模态：
- 单张图像 (53%)
- 序列图像 (26%)
- 交错图像-文本序列 (21%)
数据来源：来自真实世界机器人试验的第一人称视角数据
评估格式：多项选择和二元选择，用于确定性和可重复的评估

数据集文件

数据集文件结构如下，包含15个JSON文件，每个文件对应一个子任务：

QA_ACTION_UNDERSTANDING.json
QA_DUALVIEW_MATCHING.json
QA_FINE_GRAINED_PLAN.json
QA_HUMAN_INTENTION.json
QA_HUMAN_INTERACTION.json
QA_MISTAKE_RECOVERY.json
QA_MISTAKE_CLASSIFY.json
QA_MISTAKE_EXISTENCE.json
QA_RELATIVE_POS_GROUNDING.json
QA_SCENE_UNDERSTANDING.json
QA_SUBTASK_PLANNING.json
QA_SUCCESS_DETECTION.json
QA_TASK_GROUNDING.json
QA_TASK_PROGRESS.json
QA_TRAJ_UNDERSTANDING.json

数据格式

每个JSON文件包含一个问答对列表，每个条目具有以下结构：

id：唯一标识符，格式为 CATEGORY:INDEX
image：图像路径列表
conversations：包含问题和真实答案的对话格式
- from: "human"：包含 <image> 占位符和多项选择选项的问题
- from: "gpt"：真实答案
gt_answer：真实答案

关键特性

全面覆盖：唯一一个全面支持所有四个推理维度的基准
真实世界数据：所有数据均来自真实的机器人试验
确定性评估：标准化的多项选择格式消除了主观评分
推理-执行解耦：将认知能力与运动控制分离
预测价值：与端到端视觉语言动作模型的泛化性能有很强的正相关性

基线结果

模型	总体ERIQ分数
Qwen2.5-VL-3B	58.64%
Qwen2.5-VL-7B	66.69%
InternVL-3.5-8B	66.72%
RoboBrain2.0-7B	67.38%
Cosmos-Reason1-7B	67.99%
Claude-Sonnet-4	65.66%
Qwen3-VL-8B	75.53%
GPT-4o-mini	77.61%
Gemini-2.5-pro	80.55%
GenieReasoner-3B	82.72%

引用

如果使用ERIQ基准，请引用相关论文。

许可证

代码：MIT许可证
数据集：知识共享署名 4.0 国际许可协议

搜集汇总

数据集介绍

构建方式

在具身智能领域，评估机器人的认知推理能力独立于其运动控制能力是一项关键挑战。ERIQ基准测试的构建旨在应对这一挑战，其数据来源于真实世界的机器人试验，全部采用第一人称视角采集。该数据集包含6,052个精心设计的问答对，覆盖了空间感知与定位、规划与监控、错误检测与恢复以及人类意图理解四大核心推理维度下的15个细分子任务。数据构建过程强调认知与执行的解耦，通过多选和二元判断的标准化格式，确保了评估的确定性和可复现性。

特点

ERIQ数据集以其全面性和真实性著称。它不仅全面覆盖了具身推理的四大维度，还囊括了超过100个来自家庭、餐厅、超市、工业和办公室五大领域的独特场景。数据模态丰富，包含单张图像、序列图像以及图文交错序列，其中超过一半的问题基于真实机器人试验采集的第一人称视角图像。该数据集的一个显著特点是其评估格式的确定性，所有问题均设计为多选或二元判断，有效消除了主观评分偏差，为模型推理能力的量化比较提供了可靠基础。

使用方法

为促进公平比较，ERIQ提供了标准化的评估工具包。使用者首先需将模型预测结果整理为特定JSON格式，其中必须包含与原始数据匹配的问题ID、模型预测答案以及真实答案。随后，通过运行提供的Python评估脚本，系统将自动加载预测文件，计算每个细分子任务的分类准确率，并最终输出所有类别的加权平均准确率。这一流程确保了评估过程的自动化与标准化，使得研究者能够便捷地量化模型在各项具身推理任务上的性能，并与已公布的基线结果进行对比。

背景与挑战

背景概述

在具身人工智能领域，如何精准评估智能体在物理世界中的高级认知与推理能力，一直是制约机器人通用智能发展的核心瓶颈。ERIQ基准由AgiBot研究团队于2025年创建，旨在为机器人操作任务提供一个大规模、细粒度的具身推理评估框架。该基准通过解耦认知推理与运动控制，专注于评估空间感知与接地、规划与监控、错误检测与恢复、人类意图理解四大维度的能力，其数据全部源自真实世界的机器人试验，覆盖家庭、餐厅、超市等多种场景。这一工作为衡量和推动视觉语言模型在具身环境中的推理性能提供了标准化、可复现的评估工具，对机器人学与通用人工智能的交叉研究具有重要影响。

当前挑战

ERIQ基准致力于解决具身智能中一个根本性挑战：如何独立且可靠地评估智能体在复杂物理环境中的高级推理能力，而非其低层动作执行技能。构建这一数据集面临多重具体挑战：首先，在数据采集层面，需要从大量真实机器人试验中筛选出能清晰体现特定推理维度的视觉序列与问答对，确保数据既具真实性又能精准对应十五项细分子任务。其次，在任务设计上，需将抽象的推理能力（如错误恢复、意图理解）转化为可操作的多选题或二值判断题，同时保持问题与真实操作场景的语义一致性。此外，维持四大推理维度之间的平衡与独立性，避免任务间的混淆，也是构建过程中的关键考量。

常用场景

经典使用场景

在具身智能与机器人操作领域，ERIQ基准测试的经典应用场景在于系统评估视觉语言模型在真实世界环境中的推理能力。该数据集通过涵盖空间感知与规划、错误检测与恢复、人类意图理解等多个维度，为研究人员提供了一个标准化的测试平台，用以衡量模型在脱离具体动作执行干扰下的纯粹认知表现。其多模态数据与结构化任务设计，使得模型能够在家庭、餐厅、超市等多样化场景中进行跨领域的推理能力验证。

解决学术问题

ERIQ基准测试有效解决了具身人工智能研究中认知与运动控制耦合导致的评估混淆问题。通过将推理能力与动作执行解耦，该数据集允许独立考察模型的空间理解、任务规划、错误诊断及人机交互等核心认知维度。这为量化智能体的“推理智商”提供了可重复、可比较的度量标准，推动了领域内从端到端性能评估向细粒度认知能力分析的范式转变，并为构建更通用、鲁棒的具身智能体奠定了理论基础。

衍生相关工作

围绕ERIQ基准测试，已衍生出一系列旨在提升具身推理能力的经典研究工作。例如，GenieReasoner等模型专门针对其多维度任务进行优化，实现了超越通用视觉语言模型的性能。同时，该基准也促进了如RoboBrain2.0、Cosmos-Reason等专注于机器人推理的预训练模型的发展，这些工作普遍借鉴了ERIQ在任务分解、轨迹理解及意图理解等方面的结构化设计思想，共同推动了具身推理向更细粒度、更可解释的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集