BEAR

Name: BEAR
Creator: Northeastern University, The Chinese University of Hong Kong, Peking University, Westlake University, Harvard University, Purdue University, University of Oxford
Published: 2025-10-10 03:18:36
License: 暂无描述

arXiv2025-10-10 更新2025-10-14 收录

下载链接：

https://bear-official66.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

BEAR数据集是一个全面的基准数据集，旨在评估多模态语言模型（MLLMs）的具身能力。该数据集由6个类别和14个原子技能组成，包含4469个交织的图像-视频-文本条目，涵盖了从低级指向、轨迹理解、空间推理到高级规划等任务。数据集的创建过程涉及从13个不同的数据源收集数据，并通过多阶段的生成流程和人工验证确保数据的多样性和准确性。BEAR数据集旨在帮助研究人员评估和改进MLLMs的具身能力，并推动具身智能领域的发展。

The BEAR dataset is a comprehensive benchmark dataset designed to evaluate the embodied capabilities of multimodal large language models (MLLMs). Comprising 6 categories and 14 atomic skills, the dataset contains 4,469 interleaved image-video-text entries, covering tasks ranging from low-level pointing, trajectory understanding, spatial reasoning to high-level planning. The dataset was created by collecting data from 13 distinct data sources, and its diversity and accuracy were ensured through a multi-stage generation pipeline and manual verification. The BEAR dataset aims to assist researchers in evaluating and improving the embodied capabilities of MLLMs, and promote the development of the embodied intelligence field.

提供机构：

Northeastern University, The Chinese University of Hong Kong, Peking University, Westlake University, Harvard University, Purdue University, University of Oxford

创建时间：

2025-10-10

原始信息汇总

BEAR 数据集概述

数据集基本信息

数据集名称: BEAR (Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities)
数据规模: 4,469个交错的图像-视频-文本VQA样本
类别数量: 6个主要类别
子类型数量: 15个细分子类型
问题类型分布:
- 多项选择题: 57.4%
- 自由形式问题: 42.6%
- 新生成样本: 93.3%

评估能力类别

基础能力类别

Pointing (指向)
Bounding Box (边界框)
Trajectory Reasoning (轨迹推理)
Spatial Reasoning (空间推理)
Task Planning (任务规划)

长视野类别

从AI2-THOR模拟器中收集的35个情景
将具身情景分解为技能导向的步骤进行离线评估
涵盖规划、物体搜索、导航、空间推理、感知和放置等步骤

模型评估结果

整体性能对比

专有模型平均分: 39.2
开源模型平均分: 25.8
性能差距: 13.4

评估模型数量

总模型数: 20个代表性MLLMs
开源模型: 12个
专有模型: 8个

性能指标缩写说明

GEN: General Object (Pointing/Box)
SPA: Spatial Object (Pointing/Box)
PRT: Semantic Part (Pointing/Box)
PRG: Task Process Reasoning
PRD: Next Action Prediction
GPR: Gripper Trajectory Reasoning
HND: Human Hand Trajectory Reasoning
OBJ: Object Trajectory Reasoning
LOC: Object Localization
PTH: Path Planning
DIR: Relative Direction

BEAR-Agent 增强方案

类型: 多模态可对话智能体
功能: 利用视觉工具增强MLLMs的具身能力
效果: 显著提升InternVL3-14B和GPT-5在BEAR基准上的性能

搜集汇总

数据集介绍

构建方式

BEAR数据集的构建过程体现了多模态数据融合与精细化标注的前沿理念。该数据集从13个异构数据源中系统采集了4,469个交织的图像-视频-文本样本，涵盖真实世界场景与仿真环境。通过多阶段数据生成流程，结合GPT-4o驱动的语义过滤与三轮人工验证机制，确保样本的语义一致性与空间合理性。在标注层面，采用基于GroundingDINO的实例分割与Segment-Anything的泛化分割技术生成像素级标注，并通过空间关系解析与动作轨迹分析构建了涵盖6大类别、14项原子技能的层次化标注体系。

特点

BEAR数据集的核心特征在于其系统化定义的具身能力评估维度。数据集首次将具身智能分解为指向识别、轨迹推理、空间关系理解、任务规划等原子技能，并通过长时序任务实现多技能组合验证。其样本分布呈现出显著的模态多样性，包含64.6%的纯图像样本、22.2%的纯视频样本及13.2%的多模态交织样本。特别设计的干扰项机制与难度分级策略，如通过目标掩码尺寸控制指向任务复杂度，使数据集能精准诊断模型在细粒度视觉定位与时空推理方面的能力边界。

使用方法

该数据集支持标准视觉问答评估范式，提供统一的结构化数据接口。评估时可采用直接提示、思维链推理、少样本学习等策略，并支持关键点检测、深度估计等工具增强的评估模式。对于视频模态输入，建议采用均匀采样16-32帧的时序处理方案。数据集的验证集与测试集经过严格划分以避免数据污染，评估指标根据任务类型分别采用交并比（Bounding Box）与准确率（其他类别），其中长时序任务采用全流程正确率的严格评估标准。

背景与挑战

背景概述

BEAR数据集由东北大学、香港中文大学等机构的研究团队于2025年联合提出，旨在系统评估多模态大语言模型在具身能力方面的表现。该数据集聚焦于智能体在物理世界中感知、推理与交互的基础能力，涵盖指向、轨迹理解、空间推理等六大类别共14项原子技能，包含4,469个交织的图像-视频-文本样本。BEAR首次将具身任务分解为结构化技能步骤，填补了现有基准在系统性评估方面的空白，为具身智能体的能力诊断与发展提供了重要支撑。

当前挑战

BEAR数据集面临的挑战主要体现在两个方面：在领域问题层面，需解决多模态模型在低层感知（如细粒度物体定位）、三维空间理解（如路径规划中的方向混淆）及高层规划（如动作预测）中的系统性缺陷；在构建过程中，需克服多源数据融合的复杂性，包括13种异构数据源的语义对齐、视频帧间一致性维护，以及通过多轮人工验证确保样本的难度分级与伦理合规性。

常用场景

经典使用场景

在具身智能研究领域，BEAR数据集作为首个系统化评估多模态大语言模型原子化具身能力的基准，其经典应用场景聚焦于对模型感知、推理与交互能力的细粒度诊断。该数据集通过4469个交错排列的图像-视频-文本样本，覆盖了从低层级的指向识别、轨迹理解到高层级的任务规划等14项核心技能，为研究者提供了全面评估模型在物理世界理解能力上的标准化测试平台。其精心设计的难度梯度与多模态数据融合特性，使其成为衡量模型从静态感知到动态交互过渡能力的关键工具，尤其在模拟真实环境中的物体操作、空间导航等复杂任务时展现出独特价值。

衍生相关工作

BEAR数据集催生了系列创新性研究工作，其提出的原子能力 taxonomy 启发了EmbodiedBench等基准对任务导向型评估的改进。基于该数据集发现的视觉感知瓶颈，研究者开发了BEAR-Agent多模态对话代理，通过集成预训练视觉模型将GPT-5在数据集上的性能相对提升17.5%。同时，其长时序任务分解框架被扩展应用于Maniskill等仿真平台，衍生出如基于语义场景图的跨帧对齐算法、轨迹箭头扩展可视化工具等重要技术突破。这些成果共同推动了具身智能从基准建设到方法创新的完整研究闭环。

数据集最近研究