RoboBench
收藏arXiv2025-10-21 更新2025-10-24 收录
下载链接:
https://robo-bench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
RoboBench是一个全面的评估基准,用于评估多模态大型语言模型(MLLM)作为机器人操作中的认知核心。该数据集涵盖了指令理解、感知推理、泛化规划、可利用性预测和故障分析五个维度,共包含14个能力和25个任务,以及6092个问答对。数据集来源于大规模真实机器人数据集和内部收集,确保了任务的现实性和多样性。
RoboBench is a comprehensive evaluation benchmark for assessing multimodal large language models (MLLMs) as the cognitive core in robotic manipulation. This dataset encompasses five core dimensions: instruction understanding, perceptual reasoning, generalized planning, affordance prediction and failure analysis, comprising a total of 14 capabilities, 25 tasks and 6092 question-answer pairs. The dataset is sourced from large-scale real-world robotic datasets and internally curated data, ensuring the realism and diversity of the included tasks.
提供机构:
北京大学
创建时间:
2025-10-21
原始信息汇总
RoboBench 数据集概述
数据集简介
RoboBench 是一个针对多模态大语言模型作为具身大脑的综合性评估基准,系统性地评估模型在机器人操作任务中的认知能力。
核心维度
- 指令理解:评估模型对显式和隐式指令的理解能力
- 感知推理:涵盖机器人中心、物体中心、场景中心和任务中心的推理能力
- 泛化规划:评估跨具身、跨物体、跨视角和跨任务的规划能力
- 功能预测:包括静态、动态和导航功能预测
- 失败分析:分析执行失败和规划失败的原因
数据集规模
- 5个核心维度
- 14种能力
- 25种任务类型
- 6092个高质量问答对
数据来源
- 基于最新的开源真实机器人数据集
- 专有真实世界数据
- 涵盖多样化的具身配置、属性丰富的物体、多视角场景和记忆驱动的导航
评估方法
- 所有问题都经过人工验证以确保质量和一致性
- 长时程任务规划采用有向无环图引导的方法进行评估
- 规划评估使用基于MLLM的世界模拟器来评估具身可行性
数据构建流程
- 预处理开源和自收集的机器人数据
- 工具辅助和人在回路的标注
- 统一模式下的自动生成问答
- 构建五个维度的数据集
数据格式
- 遵循统一模式
- 渲染为二元选择、单选和多步多选问答格式
- 适用于开源和闭源MLLMs的评估
相关资源
- 论文地址:https://arxiv.org/abs/2510.17801
- 数据集和代码已发布
搜集汇总
数据集介绍

构建方式
在机器人操作智能评估领域,RoboBench通过整合大规模真实机器人数据集与内部采集数据构建而成。该数据集采用多阶段处理流程,针对五个认知维度分别定制数据工作流:从开源机器人视频中提取结构化动作序列,利用多模态大语言模型生成任务摘要与步骤标注,并通过人工专家对关键帧进行静态/动态可操作性标注。数据质量控制采用两阶段验证机制,结合通用筛选标准与维度特定规则,确保任务场景覆盖单臂、双臂及移动操作等多种机器人形态,并融入材质属性、物理特性等丰富物体特征。
特点
RoboBench的显著特征体现在其系统性评估框架与真实任务复杂性。该数据集涵盖指令理解、感知推理、泛化规划、可操作性预测及失败分析五个核心维度,细分为14项子能力与25类任务,共包含6092组问答对。其创新性在于引入多模态大语言模型作为世界模拟器的评估机制,通过关键物体状态里程碑的逐步推演,突破传统符号匹配局限,实现对长时程规划物理可行性的忠实评估。数据集场景设计融合多视角遮挡、记忆驱动导航等现实挑战,构建起连接抽象认知与具身执行的完整评估生态。
使用方法
使用RoboBench时需遵循其多维评估协议。针对感知推理与失败分析维度采用多选题准确率指标,可操作性预测通过欧氏距离与轨迹均方根误差转换计算。规划评估分为三个层级:长时程规划通过世界模拟器框架计算节点正确率与任务完成度;下一步规划依据技能匹配度、物体合理性与参数精度综合评分;任务状态估计采用二元判断准确率。评估过程需加载初始场景图像、参考动作序列及人工标注的有向无环图,通过视觉约束分析与状态依赖验证,逐步推演预测方案在物理约束下的执行轨迹。
背景与挑战
背景概述
RoboBench作为2025年推出的综合性评估基准,由北京大学多媒体信息处理国家重点实验室与北京智源人工智能研究院联合主导开发。该数据集聚焦于多模态大语言模型在具身智能领域的认知能力评估,旨在解决传统基准在评估机器人高层次推理能力方面的局限性。其核心研究问题在于如何系统化评估MLLM作为具身大脑在动态非结构化环境中的感知、推理与决策能力,通过构建涵盖指令理解、感知推理、泛化规划、功能预测与故障分析五大维度的评估体系,为机器人智能的发展提供了重要的理论支撑与实践指导。
当前挑战
在领域问题层面,RoboBench致力于解决具身智能系统中高层次认知能力的评估挑战,包括隐含指令理解、时空推理、跨场景规划等复杂认知任务。构建过程中面临多重挑战:需整合大规模真实机器人数据与人工标注数据以弥合仿真与现实差距;设计基于MLLM的世界模拟器评估框架来验证规划方案的物理可行性;构建涵盖单臂、双臂及移动操作等多种机器人形态的多样化任务场景;确保数据标注质量通过专业标注员的多轮验证流程,最终形成包含6092个问答对的综合性评估体系。
常用场景
经典使用场景
在具身智能研究领域,RoboBench作为多模态大语言模型的认知能力评估基准,其经典应用场景聚焦于系统化评测模型在机器人操作任务中的高层推理能力。该数据集通过构建涵盖指令理解、感知推理、泛化规划、功能预测与失败分析五个维度的评估体系,为研究者提供了全面衡量模型在动态非结构化环境中认知表现的标准化平台。其精心设计的6092个问答对与25种任务类型,使得模型在长时序任务规划、跨场景适应能力等关键认知环节的评估成为可能。
衍生相关工作
基于RoboBench评估框架衍生的经典研究工作主要集中在具身认知模型的架构创新与评估方法拓展。该数据集启发了双系统范式的深入研究,其中系统2作为具身大脑负责高层推理的认知机制得到系统性探索。在模型架构方面,衍生出融合视觉-语言-动作的端到端系统与分层规划框架的对比研究。评估方法论上,其世界模拟器框架被扩展应用于多智能体协作场景的可行性验证。这些工作共同推动了具身人工智能从单纯的任务执行向融合认知推理的范式转变。
数据集最近研究
最新研究方向
在具身智能领域,RoboBench数据集正推动多模态大语言模型作为具身大脑的系统性评估研究。该数据集通过构建涵盖指令理解、感知推理、泛化规划、功能预测与失败分析的五维评估体系,突破了传统基准仅关注执行成功的局限。前沿研究聚焦于开发基于世界模拟器的规划评估框架,通过模拟关键物体状态变化来验证长时程推理的物理可行性。当前热点集中于解决模型在隐式指令理解、时空感知、跨场景规划等核心认知能力的不足,为构建更鲁棒的机器人智能系统提供了重要指导。
相关研究论文
- 1Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain北京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



