DeCoBench

Name: DeCoBench
Creator: 南京大学, 上海大学, 新加坡国立大学, 华为
Published: 2025-05-01 21:52:19
License: 暂无描述

arXiv2025-05-01 更新2025-05-03 收录

下载链接：

https://deco226.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

DeCoBench是一个专门为评估多任务模仿学习模型在长时3D操作任务中的零样本泛化能力而设计的基准。数据集由12个新颖的组合式长时3D操作任务组成，旨在解决多任务模仿学习模型在面临新颖的长时3D操作任务时的泛化能力有限的问题。数据集由南京大学、上海大学、新加坡国立大学和华为的研究人员创建，并通过DeCo框架进行评估，DeCo框架能够使多任务模仿学习模型实现零样本泛化。DeCo框架由三个关键组件组成：任务分解、技能学习和技能调度。任务分解组件将长时操作任务分解成一系列模块化和可重用的原子任务，技能学习组件使模型能够从原子任务中学习多样化的技能，技能调度组件则使用视觉语言模型来规划新任务的指令，并调度原子技能的执行。DeCo框架在模拟和真实世界环境中都取得了显著的泛化性能提升。

DeCoBench is a benchmark specifically developed to evaluate the zero-shot generalization performance of multi-task imitation learning models on long-horizon 3D manipulation tasks. The dataset includes 12 novel composite long-horizon 3D manipulation tasks, and is constructed to address the issue that multi-task imitation learning models often have limited generalization ability when faced with novel long-horizon 3D manipulation tasks. This dataset was created by researchers from Nanjing University, Shanghai University, National University of Singapore, and Huawei, and is evaluated via the DeCo framework, which enables multi-task imitation learning models to achieve zero-shot generalization. The DeCo framework consists of three core components: task decomposition, skill learning, and skill scheduling. The task decomposition module breaks down long-horizon manipulation tasks into a set of modular and reusable atomic tasks; the skill learning module allows the model to learn diverse skills from these atomic tasks; the skill scheduling module utilizes visual-language models to formulate instructions for new tasks and schedule the execution of atomic skills. The DeCo framework has achieved notable improvements in generalization performance across both simulated and real-world environments.

提供机构：

南京大学, 上海大学, 新加坡国立大学, 华为

创建时间：

2025-05-01

原始信息汇总

DeCo: Task Decomposition-based Skill Learning and Flexible Combination for Long-Horizon 3D Manipulation

作者

Anonymous Authors

资源

论文: arXiv
代码: Coming soon

概述

DeCo是一个模型无关的框架，旨在增强多任务模仿学习（IL）模型在未见过的长时程3D操作任务上的零样本泛化能力。

方法

任务分解：将IL演示分解为基于夹爪与物体物理交互的模块化原子任务。
原子训练数据集：构建原子训练数据集，使模型能够在模仿学习过程中学习多样化的可重用原子技能。
推理过程：
- 利用视觉语言模型（VLM）解析长时程任务的高级指令。
- 检索相关原子技能并动态调度其执行。
- 通过空间感知技能链模块确保顺序技能之间的平滑、无碰撞过渡。

评估

仿真实验

基准：DeCoBench，专门用于评估组合长时程3D操作中的零样本泛化。
模型：RVT-2、3DDA、ARP。
结果：
- 在12个新组合任务上，DeCo分别提高了66.67%、21.53%和57.92%的成功率。

真实世界实验

任务：6个原子任务训练，9个新长时程任务测试。
结果：平均成功率提高了53.33%。

性能

12个未见过的长时程任务（最多36种变体）

任务类型：
- put in without close
- put in and close
- take out without close
- take out and close
- put two in same
- take two out of same
- put two in different
- take two out of different
- box exchange
- transfer box
- sweep and drop
- retrieve and sweep

9个真实世界任务（最多29种变体）

任务类型：
- put in without close
- put in and close
- take out without close
- take out and close
- put two in different
- take two out of different
- block exchange on and in different
- out of different and off

搜集汇总

数据集介绍

构建方式

DeCoBench数据集的构建基于物理交互分析，将原始模仿学习演示分解为模块化、可重用的原子任务。通过分析机械手与物体之间的接触事件，将任务分解为完整的物理交互周期（如开-关-开），形成原子训练数据集。每个原子任务与自然语言指令和目标姿态配对，确保任务边界的物理一致性。数据集还包含时间数据以支持任务进度建模，并通过关键帧发现方法识别关键帧，确保技能学习的有效性。

特点

DeCoBench数据集的特点在于其专注于评估多任务模仿学习模型在组合式长时程3D操作任务中的零样本泛化能力。数据集包含22个桌面操作任务，分为10个原子任务和12个组合式长时程任务，涵盖三个领域：抽屉物体重排、橱柜物体重排和垃圾清理。其任务设计基于物理交互的模块化和可重用性，支持语义组合和跨领域任务评估，为模型提供了丰富的技能学习和组合验证场景。

使用方法

使用DeCoBench数据集时，首先需在多任务模仿学习模型上训练原子任务，以掌握基础技能。在推理阶段，通过视觉语言模型（VLM）解析新任务的指令，从原子指令库中检索相关技能并生成执行计划。模型依次执行原子技能，同时通过空间感知技能链模块确保技能间的平滑过渡。数据集支持对模型在未见过的组合任务上的零样本表现进行系统评估，验证其泛化能力和实际应用潜力。

背景与挑战

背景概述

DeCoBench数据集由南京大学、上海大学、新加坡国立大学和华为的研究团队于2025年提出，旨在解决长视界3D操作任务中零样本泛化的核心挑战。该数据集基于物理交互分析将原始演示任务分解为模块化原子技能，并通过视觉语言模型实现任务规划与技能组合，显著提升了多任务模仿学习模型在组合性长序列任务上的表现。作为RLBench基准的扩展，DeCoBench包含22个桌面操作任务（10个原子任务和12个组合任务），覆盖抽屉重组、橱柜整理和垃圾清理三大领域，为机器人操作策略的泛化能力评估建立了标准化测试框架。

当前挑战

DeCoBench面临双重挑战：在领域问题层面，需解决长视界任务中语义分解与低阶技能执行的错位问题，现有方法难以将语言指令映射到物理交互空间；在构建层面，需精确界定基于夹持器状态的原子任务边界，确保技能库的模块化和可重用性。具体表现为：1) 视觉语言模型在跨领域任务规划中易产生语义偏差；2) 原子技能完成检测依赖单一夹持器状态信号，对多阶段工具操作等复杂场景适应性不足；3) 技能链式执行时需解决三维空间中的运动连续性与碰撞避免问题。

常用场景

经典使用场景

DeCoBench数据集在机器人模仿学习领域被广泛应用于评估多任务模仿学习模型在未见过的长周期3D操作任务上的零样本泛化能力。该数据集通过物理交互分析将复杂的操作任务分解为模块化的原子任务，使得模型能够学习可重用的原子技能，并在推理时通过视觉语言模型（VLM）解析高级指令，动态调度和执行这些技能。这种设计使得DeCoBench成为评估模型在组合性长周期任务上表现的重要基准。

解决学术问题

DeCoBench数据集解决了多任务模仿学习模型在长周期3D操作任务中泛化能力不足的关键问题。通过任务分解和技能组合的框架，该数据集使模型能够将未见过的任务分解为已学习的原子技能，并通过动态调度和空间感知的技能链模块实现无缝执行。实验表明，DeCo框架显著提升了RVT-2、3DDA和ARP等模型的零样本泛化性能，为解决机器人操作中的组合性和长周期挑战提供了有效方案。

衍生相关工作

DeCoBench数据集衍生了一系列相关研究工作，包括基于物理交互的任务分解方法、视觉语言模型在机器人任务规划中的应用以及空间感知技能链模块的设计。这些工作进一步推动了多任务模仿学习模型在长周期3D操作任务中的泛化能力。例如，GRAVMAD和SCAR等研究利用DeCoBench的分解策略，提升了模型在复杂任务中的表现。此外，该数据集还为机器人操作领域的基准测试和算法评估提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集