RynnBrain-Bench

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/Alibaba-DAMO-Academy/RynnBrain-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RynnBrain-Bench 是一个高维评估套件，旨在全面评估复杂家庭环境中具身理解模型的认知和定位能力。该数据集超越了现有基准，特别强调在连续视频序列中的细粒度理解和精确的时空定位。RynnBrain-Bench 系统性地测量了四个基础支柱的时空具身理解能力：物体认知、空间认知、接地和指向。涵盖了从详细物体属性到可操作性点预测的21个专业子能力，包含3,616个视频片段和12,000个精心策划的开放式问题，为下一代多模态模型提供了严格的评估平台。数据集包含视频和文本两种模态，规模在1K到10K之间，分为六个配置，分别针对不同的认知任务。

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

在具身智能领域，RynnBrain-Bench的构建体现了对复杂家庭环境中模型认知与定位能力的系统性评估需求。该数据集通过精心设计的流程，采集了涵盖多样化家庭场景的3,616个视频片段，并在此基础上人工标注了12,000个开放式问题。构建过程强调细粒度理解与精确时空定位，每个问题均经过人工验证，并与真实世界物体分布保持平衡，确保了数据的高保真度与生态效度。数据以JSONL格式组织，包含六个专项配置，分别对应物体认知、空间认知、指代、区域、功能可供性与轨迹预测等核心维度，形成了层次分明、覆盖全面的评估体系。

使用方法

使用RynnBrain-Bench进行模型评估，需遵循其提供的标准化流程。研究者首先需从指定链接下载包含视频文件与JSONL标注的数据集，并解压至本地。评估过程依托于官方提供的RynnScale代码库，通过执行特定的Python命令启动。该命令允许用户指定待评估模型路径、选择评测基准（如RynnBrainCog与RynnBrainLoc）、设定提示格式与关键参数（如帧采样率、最大帧数、图像分辨率等）。系统将自动加载数据，根据各子任务对应的指标（如Accuracy@0.5、平均相对精度、离散弗雷歇距离等）进行计算，最终生成模型在六大任务维度上的性能分数，便于在公开排行榜上进行横向比较与深入分析。

背景与挑战

背景概述

在具身人工智能领域，对模型在复杂动态环境中的认知与定位能力进行系统性评估，一直是推动技术发展的核心驱动力。RynnBrain-Bench数据集应运而生，由阿里巴巴达摩院的研究团队于近期创建，旨在为下一代多模态模型提供一个高维度的综合性评测基准。该数据集聚焦于家庭环境中的具身理解，核心研究问题在于如何全面衡量模型在视频序列中对细粒度物体属性、三维空间关系、时空定位以及交互指向等多维认知能力的掌握程度。通过涵盖物体认知、空间认知、 grounding 和 pointing 四大支柱及其下的21项子能力，该数据集构建了包含3616个视频片段和12000个开放式问题的评测体系，显著推动了具身智能从感知到理解与交互的纵深发展。

当前挑战

RynnBrain-Bench所针对的具身理解领域，其核心挑战在于模型需从以自我为中心的动态视频流中，整合视觉与语言信息，实现精确的时空推理与定位。这要求模型不仅能识别物体及其细粒度属性，还需理解物体在三维空间中的布局、距离与相对运动，并能在复杂情境下通过推理锚定特定目标的时间关键帧与空间坐标。在数据集构建层面，挑战同样艰巨：为确保评测的真实性与严谨性，研究团队需在大量家庭环境视频中人工标注细粒度的物体属性与空间关系，精心设计覆盖多维度能力的开放式问题，并平衡数据分布以反映真实世界复杂性，整个过程对标注的一致性与评测指标的科学性提出了极高要求。

常用场景

经典使用场景

在具身智能领域，RynnBrain-Bench数据集被广泛应用于评估多模态大模型在复杂家庭环境中的认知与定位能力。该数据集通过包含对象认知、空间认知、指代与指向四大维度的视频序列与开放式问题，为模型提供了精细化的评估场景。研究者利用其丰富的视频片段与标注，系统性地测试模型对动态场景中物体属性、三维空间关系以及时空轨迹的理解精度，从而推动具身理解模型向更高层次的场景感知迈进。

解决学术问题

RynnBrain-Bench致力于解决具身人工智能研究中模型认知粒度不足与时空定位能力薄弱的核心问题。传统基准往往局限于静态图像或简单视频问答，而该数据集通过引入细粒度对象属性分析、自我中心与世界中心的空间推理、以及情境化指代定位等任务，填补了模型在连续视频序列中实现精准时空理解的评估空白。其多维度的评估体系为衡量模型在真实环境中的综合认知能力提供了科学依据，促进了具身智能从感知到交互的范式转变。

实际应用

该数据集的实际应用场景紧密关联于家庭服务机器人、智能监控系统以及增强现实交互界面。在机器人领域，模型通过RynnBrain-Bench的评估能够提升在动态家居环境中识别物体状态、理解空间布局并预测可操作点的能力，从而实现更自主的任务执行。在智能监控中，数据集支持对复杂事件中特定目标与行为的精准定位与描述。这些应用不仅验证了模型在现实世界的适用性，也为安全、高效的自动化系统开发奠定了数据基础。

数据集最近研究