VIKI-Bench

github2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/MARS-EAI/VIKI-R

下载链接

链接失效反馈

官方服务：

资源简介：

VIKI-Bench是一个层次化的多智能体视觉推理基准，包含23,737个任务，覆盖100个场景，6种机器人形态，以及超过1,000种资产组合，提供全局和第一人称视角。

VIKI-Bench is a hierarchical multi-agent visual reasoning benchmark containing 23,737 tasks, covering 100 scenarios, 6 robot morphologies, and over 1,000 asset combinations, and offering both global and first-person perspectives.

创建时间：

2025-05-25

原始信息汇总

VIKI-R数据集概述

数据集简介

名称：VIKI-R (Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning)
组成部分：包含VIKI-Bench（分层多智能体视觉推理基准）和VIKI-R（两阶段学习框架）

数据集内容

VIKI-Bench层级

Level 1: Agent Activation
- 任务：根据场景和指令选择适当的智能体子集
Level 2: Task Planning
- 任务：在参考长度内生成可执行的多智能体动作序列
Level 3: Trajectory Perception
- 任务：从第一人称视角预测可见智能体的空间轨迹
- 评估指标：RMSE、Hausdorff距离、动态Fréchet距离

数据集统计

任务样本：23,737个
3D场景：100个
机器人形态：6种（双臂、履带式、腿式、人形等）
资产组合：超过1,000种
视角：全局视角 + 多视角第一人称视角

关键特性

分层数据集：包含三个层次的评估任务
机器人聚焦：家庭布局、多样化的多机器人任务
评估指标：
- 激活准确率
- 规划正确性和效率
- 轨迹RMSE/HD/DFD

模型支持

模型尺寸：3B和7B
支持层级：L1/L2/L3
训练阶段：SFT + GRPO

搜集汇总

数据集介绍

构建方式

VIKI-Bench作为多智能体视觉推理领域的基准数据集，其构建过程体现了系统性和层次化的设计理念。数据集通过精心设计的三个评估层级——智能体激活、任务规划和轨迹感知，构建了包含23,737个任务的丰富样本库。研究人员基于100个多样化3D场景，配置了6种异构机器人形态和超过1,000种资产组合，同时采集全局视角和第一人称视角数据，确保了数据集的全面性和代表性。

特点

该数据集最显著的特点在于其层次化结构和丰富的任务多样性。23,737个任务样本覆盖了从智能体选择到复杂任务执行的全过程，为研究多智能体协同提供了完整的评估框架。6种机器人形态和大量资产组合的引入，使得数据集能够有效模拟现实世界中的复杂场景。同时，全局与第一人称视角的结合，为研究多视角感知和决策提供了独特的数据支持。

使用方法

使用VIKI-Bench时，研究人员可通过GitHub仓库快速获取数据集和相关代码。安装过程需要配置特定的Conda环境，并安装FlashAttention等依赖项。数据集支持从基础的有监督微调(SFT)到强化学习微调(GRPO)的全流程训练。针对不同层级的任务，用户可分别调用3B或7B模型进行训练和评估，通过配置文件灵活调整训练参数，实现多智能体协同能力的系统性测试。

背景与挑战

背景概述

VIKI-Bench是由RoboFactory-VIKI项目组于2025年推出的多智能体视觉推理基准数据集，旨在推动具身智能体协作研究的发展。该数据集由100个多样化3D场景、6种异构机器人形态和超过1,000种资产组合构成，包含23,737个任务样本，涵盖全局视角和第一人称视角。其创新性地设计了三级评估体系——智能体激活、任务规划和轨迹感知，为研究多智能体系统的层次化决策与协作提供了标准化测试平台。数据集支持对Qwen2.5-VL-Instruct等大模型的监督微调与强化微调，显著提升了智能体在复杂家居环境中的协同作业能力。

当前挑战

VIKI-Bench致力于解决多智能体视觉推理领域的三大核心挑战：异构机器人协同决策的复杂性、长时程任务规划的可靠性以及第一人称视角轨迹预测的精确性。在构建过程中，研究团队面临场景多样性不足、机器人形态差异导致的动作空间异构性、以及多视角数据对齐等工程难题。数据集通过引入动态弗莱谢距离等创新指标，有效量化了智能体在连续动作空间中的协同表现，但如何平衡任务复杂度与计算效率仍是待突破的关键问题。

常用场景

经典使用场景

在机器人协作与多智能体系统研究中，VIKI-Bench数据集通过其层次化的多智能体视觉推理评估框架，为研究者提供了一个全面的实验平台。该数据集特别适用于评估智能体在复杂环境中的协同能力，包括智能体激活、任务规划和轨迹感知三个关键层次。通过23,737个任务样本和100个多样化的3D场景，研究者能够深入探索多智能体在不同形态机器人（如双臂、履带式、人形等）下的表现，从而推动多智能体协作算法的优化与发展。

解决学术问题

VIKI-Bench数据集解决了多智能体协作中的核心学术问题，包括智能体选择、任务分配和轨迹预测。其层次化的评估体系为研究者提供了量化指标，如激活准确率、规划正确性与效率，以及轨迹预测的RMSE、Hausdorff距离和动态Fréchet距离。这些指标不仅帮助研究者验证算法的有效性，还为多智能体系统的理论研究和实际应用提供了可靠的数据支持。该数据集的出现填补了多智能体视觉推理领域的空白，为相关研究奠定了坚实基础。

衍生相关工作

VIKI-Bench数据集的发布催生了一系列经典研究工作，尤其是在多智能体强化学习和视觉推理领域。基于该数据集，研究者提出了VIKI-R框架，通过监督微调和强化学习优化多智能体的协作能力。此外，许多后续工作利用该数据集的层次化任务设计，进一步探索了智能体在复杂环境中的规划与感知能力。这些研究不仅推动了多智能体系统的发展，还为机器人协作算法的实际应用提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集