five

VIKI-Bench

收藏
github2025-06-03 更新2025-06-05 收录
下载链接:
https://github.com/MARS-EAI/VIKI-R
下载链接
链接失效反馈
官方服务:
资源简介:
VIKI-Bench是一个层次化的多智能体视觉推理基准,包含23,737个任务,覆盖100个场景,6种机器人形态,以及超过1,000种资产组合,提供全局和第一人称视角。

VIKI-Bench is a hierarchical multi-agent visual reasoning benchmark containing 23,737 tasks, covering 100 scenarios, 6 robot morphologies, and over 1,000 asset combinations, and offering both global and first-person perspectives.
创建时间:
2025-05-25
原始信息汇总

VIKI-R数据集概述

数据集简介

  • 名称:VIKI-R (Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning)
  • 组成部分:包含VIKI-Bench(分层多智能体视觉推理基准)和VIKI-R(两阶段学习框架)

数据集内容

VIKI-Bench层级

  1. Level 1: Agent Activation
    • 任务:根据场景和指令选择适当的智能体子集
  2. Level 2: Task Planning
    • 任务:在参考长度内生成可执行的多智能体动作序列
  3. Level 3: Trajectory Perception
    • 任务:从第一人称视角预测可见智能体的空间轨迹
    • 评估指标:RMSE、Hausdorff距离、动态Fréchet距离

数据集统计

  • 任务样本:23,737个
  • 3D场景:100个
  • 机器人形态:6种(双臂、履带式、腿式、人形等)
  • 资产组合:超过1,000种
  • 视角:全局视角 + 多视角第一人称视角

关键特性

  • 分层数据集:包含三个层次的评估任务
  • 机器人聚焦:家庭布局、多样化的多机器人任务
  • 评估指标
    • 激活准确率
    • 规划正确性和效率
    • 轨迹RMSE/HD/DFD

模型支持

  • 模型尺寸:3B和7B
  • 支持层级:L1/L2/L3
  • 训练阶段:SFT + GRPO
搜集汇总
数据集介绍
main_image_url
构建方式
VIKI-Bench作为多智能体视觉推理领域的基准数据集,其构建过程体现了系统性和层次化的设计理念。数据集通过精心设计的三个评估层级——智能体激活、任务规划和轨迹感知,构建了包含23,737个任务的丰富样本库。研究人员基于100个多样化3D场景,配置了6种异构机器人形态和超过1,000种资产组合,同时采集全局视角和第一人称视角数据,确保了数据集的全面性和代表性。
特点
该数据集最显著的特点在于其层次化结构和丰富的任务多样性。23,737个任务样本覆盖了从智能体选择到复杂任务执行的全过程,为研究多智能体协同提供了完整的评估框架。6种机器人形态和大量资产组合的引入,使得数据集能够有效模拟现实世界中的复杂场景。同时,全局与第一人称视角的结合,为研究多视角感知和决策提供了独特的数据支持。
使用方法
使用VIKI-Bench时,研究人员可通过GitHub仓库快速获取数据集和相关代码。安装过程需要配置特定的Conda环境,并安装FlashAttention等依赖项。数据集支持从基础的有监督微调(SFT)到强化学习微调(GRPO)的全流程训练。针对不同层级的任务,用户可分别调用3B或7B模型进行训练和评估,通过配置文件灵活调整训练参数,实现多智能体协同能力的系统性测试。
背景与挑战
背景概述
VIKI-Bench是由RoboFactory-VIKI项目组于2025年推出的多智能体视觉推理基准数据集,旨在推动具身智能体协作研究的发展。该数据集由100个多样化3D场景、6种异构机器人形态和超过1,000种资产组合构成,包含23,737个任务样本,涵盖全局视角和第一人称视角。其创新性地设计了三级评估体系——智能体激活、任务规划和轨迹感知,为研究多智能体系统的层次化决策与协作提供了标准化测试平台。数据集支持对Qwen2.5-VL-Instruct等大模型的监督微调与强化微调,显著提升了智能体在复杂家居环境中的协同作业能力。
当前挑战
VIKI-Bench致力于解决多智能体视觉推理领域的三大核心挑战:异构机器人协同决策的复杂性、长时程任务规划的可靠性以及第一人称视角轨迹预测的精确性。在构建过程中,研究团队面临场景多样性不足、机器人形态差异导致的动作空间异构性、以及多视角数据对齐等工程难题。数据集通过引入动态弗莱谢距离等创新指标,有效量化了智能体在连续动作空间中的协同表现,但如何平衡任务复杂度与计算效率仍是待突破的关键问题。
常用场景
经典使用场景
在机器人协作与多智能体系统研究中,VIKI-Bench数据集通过其层次化的多智能体视觉推理评估框架,为研究者提供了一个全面的实验平台。该数据集特别适用于评估智能体在复杂环境中的协同能力,包括智能体激活、任务规划和轨迹感知三个关键层次。通过23,737个任务样本和100个多样化的3D场景,研究者能够深入探索多智能体在不同形态机器人(如双臂、履带式、人形等)下的表现,从而推动多智能体协作算法的优化与发展。
解决学术问题
VIKI-Bench数据集解决了多智能体协作中的核心学术问题,包括智能体选择、任务分配和轨迹预测。其层次化的评估体系为研究者提供了量化指标,如激活准确率、规划正确性与效率,以及轨迹预测的RMSE、Hausdorff距离和动态Fréchet距离。这些指标不仅帮助研究者验证算法的有效性,还为多智能体系统的理论研究和实际应用提供了可靠的数据支持。该数据集的出现填补了多智能体视觉推理领域的空白,为相关研究奠定了坚实基础。
衍生相关工作
VIKI-Bench数据集的发布催生了一系列经典研究工作,尤其是在多智能体强化学习和视觉推理领域。基于该数据集,研究者提出了VIKI-R框架,通过监督微调和强化学习优化多智能体的协作能力。此外,许多后续工作利用该数据集的层次化任务设计,进一步探索了智能体在复杂环境中的规划与感知能力。这些研究不仅推动了多智能体系统的发展,还为机器人协作算法的实际应用提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作