RynnEC-Bench

Hugging Face2025-08-11 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/Alibaba-DAMO-Academy/RynnEC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RynnEC-Bench是一个针对Embodied Understanding模型的评估数据集，包含507个真实家庭场景的视频片段。数据集通过对象认知和空间认知两个维度来评估模型，其中对象认知包括对象属性认知和指代对象分割任务，空间认知包括自我中心认知和世界中心认知。数据集旨在提供一个客观和真实的评估环境，用于衡量模型在理解对象属性、进行精确实例分割以及处理空间关系方面的能力。

创建时间：

2025-08-06

原始信息汇总

RynnEC-Bench数据集概述

1. 数据集简介

目的：评估开放世界场景中细粒度具身理解模型，重点关注物体认知和空间认知两个维度。
规模：包含507个真实家庭场景拍摄的视频片段。
许可证：Apache-2.0。

2. 核心评估维度

2.1 物体认知

子任务：
- 物体属性认知：评估模型识别物体属性的能力，包含10类属性（类别/颜色/材质/形状/状态/位置/功能/表面细节/尺寸/计数），共10354条人工标注数据。
- 指代物体分割：评估精确实例分割能力，分为直接指代和情境指代两类问题。

2.2 空间认知

子任务：
- 自我中心认知：评估智能体与环境的时间关系理解。
- 世界中心认知：评估对客观3D空间布局的认知（尺寸/距离/位置等）。

3. 数据格式

通用结构： json { "video_id": "视频路径", "video": ["帧ID"], "conversations": [{"from": "human", "value": "问题"}, {"from": "gpt", "value": "答案"}], "type": "任务类型", "masks": [{"帧ID": {"size": [1080,1920], "counts": "RLE格式掩码"}}], "mask_ids": ["掩码对应帧"], "timestamps": ["时间戳"] }

4. 基准性能对比

模型	综合均值	物体属性	物体均值	空间均值
GPT-4o	28.3	41.1	33.9	22.2
RynnEC-2B	54.4	59.3	56.3	52.3

5. 数据获取

下载地址：https://huggingface.co/datasets/Alibaba-DAMO-Academy/RynnEC-Bench/tree/main
目录结构：

RynnEC └── data ├── object_cognition.json ├── object_segmentation.json ├── spatial_cognition.json └── data/(视频文件)

6. 轻量版数据集

RynnEC-Bench-mini：包含2000条物体属性认知、2000条空间认知和1000条物体分割数据，用于调试验证。

搜集汇总

数据集介绍

构建方式

RynnEC-Bench数据集通过精心设计的构建流程，致力于评估开放世界场景中细粒度的具身理解能力。该数据集采集了507段真实家庭场景的视频片段，采用GPT-4o分析50万张室内图像建立真实世界物体频率分布，并基于频率采样技术确保数据分布符合现实场景。所有数据条目均经过人工标注与验证，在物体属性认知任务中细分为10个类别，形成10354条标注数据。针对指代物体分割任务，采用直接指代与情境指代双重设计，确保模型能够处理不同复杂度的实例分割需求。

使用方法

使用该数据集时，研究者需下载并解压RynnECBench_data.zip文件，获取包含物体认知、物体分割和空间认知三个子任务的JSON格式标注文件。数据集采用模块化结构设计，支持单独或联合评估不同认知能力。对于初步验证，建议先使用RynnEC-Bench-mini子集进行调试，该子集包含2000条物体属性认知、2000条空间认知和1000条物体分割数据。评估时需按照指定JSON格式加载视频路径、问题对和分割标注，特别注意RLE格式掩码的处理。详细的评估指标和方法可参考项目GitHub页面提供的技术文档。

背景与挑战

背景概述

RynnEC-Bench是由阿里巴巴达摩学院开发的一个专注于细粒度具身理解模型评估的基准数据集，旨在从物体认知和空间认知两个维度对开放世界场景下的模型性能进行全面评测。该数据集包含507个真实家庭场景中采集的视频片段，涵盖了物体属性识别、指代分割以及空间关系理解等多个子任务。通过精心设计的评估体系，RynnEC-Bench为多模态大语言模型在具身智能领域的研究提供了重要的基准参考。

当前挑战

RynnEC-Bench面临的挑战主要体现在两个方面：在领域问题层面，如何准确评估模型对复杂家庭场景中物体属性和空间关系的理解能力是一个关键难题，特别是在处理开放世界场景时，模型需要具备强大的泛化能力和推理能力；在数据构建层面，确保视频数据在物体分布和任务难度上的平衡性，以及高质量的手工标注工作都带来了显著的技术挑战。此外，开发能够全面评估模型在时间维度和空间维度上认知能力的评测指标也颇具难度。

常用场景

经典使用场景

在智能家居与机器人交互领域，RynnEC-Bench数据集通过507个真实家庭场景视频片段，为多模态大语言模型（MLLMs）提供了细粒度的具身认知评估框架。其核心价值在于模拟开放世界中的物体属性识别（如材质、功能）与空间关系理解（如自我中心定位、三维场景重构），尤其适合验证模型在动态环境中的实时推理能力。例如，模型需根据视频时序分析茶杯的颜色变化，或通过空间线索判断沙发与电视的相对方位，这种设计精准复现了家庭服务机器人执行任务时的认知挑战。

解决学术问题

该数据集有效解决了具身智能研究中两大关键问题：开放场景下的语义鸿沟与时空连续性建模。通过平衡采样的10类物体属性和时空标注体系，它首次实现了对模型跨模态对齐能力的量化评估——既能检验GPT-4等模型对'冰箱门状态'的静态识别准确率，又能评估VideoLLaMA等模型对'行走路径中障碍物距离动态变化'的预测能力。其带掩码的指代分割任务进一步推动了视觉-语言联合表征学习，为突破当前模型在长视频理解中的注意力分散瓶颈提供了基准。

实际应用

在工业落地层面，RynnEC-Bench支撑了智能家居系统的场景自适应开发。基于其标注体系训练的模型可精准理解用户'请把蓝色马克杯放到餐桌左侧'的复合指令，已应用于阿里云家庭机器人路径规划模块。医疗领域则利用其空间认知数据开发视障辅助系统，通过实时解析环境三维结构生成导航语音提示。更值得注意的是，数据集中平衡采样的家居物品分布为IKEA等企业优化AR家具摆放算法提供了真实世界参照。

数据集最近研究