BEAR
收藏arXiv2025-10-10 更新2025-10-14 收录
下载链接:
https://bear-official66.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
BEAR数据集是一个全面的基准数据集,旨在评估多模态语言模型(MLLMs)的具身能力。该数据集由6个类别和14个原子技能组成,包含4469个交织的图像-视频-文本条目,涵盖了从低级指向、轨迹理解、空间推理到高级规划等任务。数据集的创建过程涉及从13个不同的数据源收集数据,并通过多阶段的生成流程和人工验证确保数据的多样性和准确性。BEAR数据集旨在帮助研究人员评估和改进MLLMs的具身能力,并推动具身智能领域的发展。
提供机构:
Northeastern University, The Chinese University of Hong Kong, Peking University, Westlake University, Harvard University, Purdue University, University of Oxford
创建时间:
2025-10-10
原始信息汇总
BEAR 数据集概述
数据集基本信息
- 数据集名称: BEAR (Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities)
- 数据规模: 4,469个交错的图像-视频-文本VQA样本
- 类别数量: 6个主要类别
- 子类型数量: 15个细分子类型
- 问题类型分布:
- 多项选择题: 57.4%
- 自由形式问题: 42.6%
- 新生成样本: 93.3%
评估能力类别
基础能力类别
- Pointing (指向)
- Bounding Box (边界框)
- Trajectory Reasoning (轨迹推理)
- Spatial Reasoning (空间推理)
- Task Planning (任务规划)
长视野类别
- 从AI2-THOR模拟器中收集的35个情景
- 将具身情景分解为技能导向的步骤进行离线评估
- 涵盖规划、物体搜索、导航、空间推理、感知和放置等步骤
模型评估结果
整体性能对比
- 专有模型平均分: 39.2
- 开源模型平均分: 25.8
- 性能差距: 13.4
评估模型数量
- 总模型数: 20个代表性MLLMs
- 开源模型: 12个
- 专有模型: 8个
性能指标缩写说明
- GEN: General Object (Pointing/Box)
- SPA: Spatial Object (Pointing/Box)
- PRT: Semantic Part (Pointing/Box)
- PRG: Task Process Reasoning
- PRD: Next Action Prediction
- GPR: Gripper Trajectory Reasoning
- HND: Human Hand Trajectory Reasoning
- OBJ: Object Trajectory Reasoning
- LOC: Object Localization
- PTH: Path Planning
- DIR: Relative Direction
BEAR-Agent 增强方案
- 类型: 多模态可对话智能体
- 功能: 利用视觉工具增强MLLMs的具身能力
- 效果: 显著提升InternVL3-14B和GPT-5在BEAR基准上的性能
搜集汇总
数据集介绍

构建方式
BEAR数据集的构建过程体现了多模态数据融合与精细化标注的前沿理念。该数据集从13个异构数据源中系统采集了4,469个交织的图像-视频-文本样本,涵盖真实世界场景与仿真环境。通过多阶段数据生成流程,结合GPT-4o驱动的语义过滤与三轮人工验证机制,确保样本的语义一致性与空间合理性。在标注层面,采用基于GroundingDINO的实例分割与Segment-Anything的泛化分割技术生成像素级标注,并通过空间关系解析与动作轨迹分析构建了涵盖6大类别、14项原子技能的层次化标注体系。
特点
BEAR数据集的核心特征在于其系统化定义的具身能力评估维度。数据集首次将具身智能分解为指向识别、轨迹推理、空间关系理解、任务规划等原子技能,并通过长时序任务实现多技能组合验证。其样本分布呈现出显著的模态多样性,包含64.6%的纯图像样本、22.2%的纯视频样本及13.2%的多模态交织样本。特别设计的干扰项机制与难度分级策略,如通过目标掩码尺寸控制指向任务复杂度,使数据集能精准诊断模型在细粒度视觉定位与时空推理方面的能力边界。
使用方法
该数据集支持标准视觉问答评估范式,提供统一的结构化数据接口。评估时可采用直接提示、思维链推理、少样本学习等策略,并支持关键点检测、深度估计等工具增强的评估模式。对于视频模态输入,建议采用均匀采样16-32帧的时序处理方案。数据集的验证集与测试集经过严格划分以避免数据污染,评估指标根据任务类型分别采用交并比(Bounding Box)与准确率(其他类别),其中长时序任务采用全流程正确率的严格评估标准。
背景与挑战
背景概述
BEAR数据集由东北大学、香港中文大学等机构的研究团队于2025年联合提出,旨在系统评估多模态大语言模型在具身能力方面的表现。该数据集聚焦于智能体在物理世界中感知、推理与交互的基础能力,涵盖指向、轨迹理解、空间推理等六大类别共14项原子技能,包含4,469个交织的图像-视频-文本样本。BEAR首次将具身任务分解为结构化技能步骤,填补了现有基准在系统性评估方面的空白,为具身智能体的能力诊断与发展提供了重要支撑。
当前挑战
BEAR数据集面临的挑战主要体现在两个方面:在领域问题层面,需解决多模态模型在低层感知(如细粒度物体定位)、三维空间理解(如路径规划中的方向混淆)及高层规划(如动作预测)中的系统性缺陷;在构建过程中,需克服多源数据融合的复杂性,包括13种异构数据源的语义对齐、视频帧间一致性维护,以及通过多轮人工验证确保样本的难度分级与伦理合规性。
常用场景
经典使用场景
在具身智能研究领域,BEAR数据集作为首个系统化评估多模态大语言模型原子化具身能力的基准,其经典应用场景聚焦于对模型感知、推理与交互能力的细粒度诊断。该数据集通过4469个交错排列的图像-视频-文本样本,覆盖了从低层级的指向识别、轨迹理解到高层级的任务规划等14项核心技能,为研究者提供了全面评估模型在物理世界理解能力上的标准化测试平台。其精心设计的难度梯度与多模态数据融合特性,使其成为衡量模型从静态感知到动态交互过渡能力的关键工具,尤其在模拟真实环境中的物体操作、空间导航等复杂任务时展现出独特价值。
衍生相关工作
BEAR数据集催生了系列创新性研究工作,其提出的原子能力 taxonomy 启发了EmbodiedBench等基准对任务导向型评估的改进。基于该数据集发现的视觉感知瓶颈,研究者开发了BEAR-Agent多模态对话代理,通过集成预训练视觉模型将GPT-5在数据集上的性能相对提升17.5%。同时,其长时序任务分解框架被扩展应用于Maniskill等仿真平台,衍生出如基于语义场景图的跨帧对齐算法、轨迹箭头扩展可视化工具等重要技术突破。这些成果共同推动了具身智能从基准建设到方法创新的完整研究闭环。
数据集最近研究
最新研究方向
在具身智能领域,BEAR数据集作为首个系统评估多模态大语言模型原子化具身能力的基准,近期研究聚焦于提升模型在物理世界中的感知、推理与交互能力。前沿方向包括通过BEAR-Agent等对话式代理框架,集成预训练视觉模型以增强空间理解和规划能力,显著改善轨迹推理和物体定位等核心任务。热点探索集中于解决模型在全方位视觉能力和三维空间推理上的瓶颈,如利用工具调用和视觉提示技术优化细粒度交互。这一进展不仅推动了仿真环境中任务执行的性能提升,也为构建通用具身智能体提供了关键方法论支撑,具有深远的学术与工程意义。
相关研究论文
- 1BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied CapabilitiesNortheastern University, The Chinese University of Hong Kong, Peking University, Westlake University, Harvard University, Purdue University, University of Oxford · 2025年
以上内容由遇见数据集搜集并总结生成



