GemBench

Name: GemBench
Creator: 法国国家信息与自动化研究所，巴黎高等师范学院，法国国家科学研究中心，PSL研究大学
Published: 2024-10-02 17:02:34
License: 暂无描述

arXiv2024-10-02 更新2024-10-04 收录

下载链接：

https://www.di.ens.fr/willow/research/gembench/

下载链接

链接失效反馈

官方服务：

资源简介：

GemBench是由法国国家信息与自动化研究所、巴黎高等师范学院、法国国家科学研究中心和PSL研究大学共同创建的一个视觉语言机器人操作基准。该数据集包含16个训练任务和44个测试任务，涵盖了七种基本操作技能和四个级别的泛化难度，旨在评估策略对新任务的适应能力。数据集通过RLBench模拟器生成，包含多种对象和颜色变体，适用于复杂的长时任务和新型对象的操作。GemBench的目标是解决现有基准在泛化能力评估上的不足，推动视觉语言机器人操作领域的发展。

GemBench is a visual-language robotic manipulation benchmark co-created by the French National Institute for Research in Computer Science and Automation (INRIA), École Normale Supérieure de Paris, the French National Centre for Scientific Research (CNRS), and PSL Research University. This dataset comprises 16 training tasks and 44 test tasks, covering seven fundamental manipulation skills and four levels of generalization difficulty, aiming to evaluate the adaptability of robotic policies to novel tasks. Generated via the RLBench simulator, the dataset includes diverse object and color variants, and is applicable to complex long-horizon tasks and novel object manipulation. The core goal of GemBench is to address the shortcomings of existing benchmarks in evaluating generalization capabilities, so as to promote the development of the visual-language robotic manipulation research field.

提供机构：

法国国家信息与自动化研究所，巴黎高等师范学院，法国国家科学研究中心，PSL研究大学

创建时间：

2024-10-02

原始信息汇总

GEMBench 数据集概述

数据集名称

GEMBench

数据集描述

GEMBench 是一个用于评估视觉-语言机器人操作策略泛化能力的新型基准。该基准包含七个通用动作原语和四个级别的泛化任务，涵盖新位置、刚性和铰接物体以及复杂的长时任务。

主要贡献者

Ricardo Garcia¹*
Shizhe Chen¹*
Cordelia Schmid¹

机构

Inria, École normale supérieure, CNRS, PSL Research University

数据集级别

Level 1: Novel placements
Level 2: Novel rigid objects
Level 3: Novel articulated objects
Level 4: Long-horizon tasks

数据集内容

任务可视化器：包含多个任务级别和任务变体的选择器，以及相应的视频演示。
状态-of-the-art 结果：展示了在 GEMBench 上评估的最新方法的性能。
真实机器人实验：展示了在真实机器人上执行的已见任务和未见任务的变体。

引用

plaintext @inproceedings{garcia24gembench, author = {Ricardo Garcia and Shizhe Chen and Cordelia Schmid}, title = {Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy}, booktitle = {preprint}, year = {2024} }

搜集汇总

数据集介绍

构建方式

GemBench数据集构建于RLBench模拟器之上，旨在评估视觉语言机器人操作策略的泛化能力。该数据集包含16个训练任务和44个测试任务，涵盖了七个核心动作技能，并分为四个递增难度的泛化级别。训练任务包括按下按钮、拿起杯子、推动物体等，而测试任务则进一步分为四个级别，分别评估对新位置、刚性物体、铰接物体和长时任务的泛化能力。

特点

GemBench数据集的显著特点在于其广泛的复杂任务覆盖和系统化的泛化能力评估。数据集不仅包括简单的拾取和放置任务，还涵盖了按下按钮、拧紧灯泡、关闭笔记本电脑等复杂操作。此外，测试任务的四个级别设计，使得模型能够在不同难度和复杂度的任务中进行系统化的泛化能力评估。

使用方法

GemBench数据集适用于评估和训练视觉语言机器人操作策略。研究者可以使用该数据集来测试现有模型的泛化能力，或作为训练数据来开发新的机器人操作策略。数据集的详细任务描述和多样化的泛化级别，为研究者提供了丰富的实验场景，有助于推动视觉语言机器人操作领域的发展。

背景与挑战

背景概述

GemBench数据集由Ricardo Garcia、Shizhe Chen和Cordelia Schmid等研究人员于2024年创建，旨在评估视觉语言机器人操作策略的泛化能力。该数据集基于RLBench模拟器，包含16个训练任务和44个测试任务，涵盖了七种基本操作技能和四个级别的泛化难度。GemBench的引入填补了现有模拟基准在评估模型泛化能力方面的空白，特别是在处理新任务、刚性物体、铰接物体和长时任务方面。该数据集的发布对提升机器人操作策略的泛化能力和推动相关领域的研究具有重要意义。

当前挑战

GemBench数据集面临的挑战主要包括两个方面：一是解决视觉语言机器人操作策略在处理新任务时的泛化问题，特别是在面对未见过的物体和复杂任务时；二是数据集构建过程中遇到的挑战，如如何设计多样化的任务和如何确保任务的难度逐步增加。此外，GemBench还需要克服现有基准在评估模型泛化能力方面的局限性，确保测试任务能够系统地评估模型的泛化能力。

常用场景

经典使用场景

GemBench数据集在视觉语言机器人操作领域中被广泛用于评估和提升策略的泛化能力。其经典使用场景包括训练机器人根据视觉输入和语言指令执行复杂任务，如按下按钮、拿起杯子、推动物体、拧紧灯泡、关闭笔记本电脑、打开抽屉和堆叠积木等。通过这些任务，GemBench能够系统地评估策略在面对新任务、新物体和新环境时的表现，从而推动机器人操作策略的泛化能力研究。

解决学术问题

GemBench数据集解决了机器人操作策略在面对新任务时泛化能力不足的学术问题。传统的机器人操作策略往往依赖于特定任务的训练数据，难以适应未见过的任务和环境。GemBench通过引入多种任务和不同层次的泛化挑战，为研究者提供了一个系统化的评估平台，促进了策略在多任务和多环境下的泛化能力研究，推动了视觉语言机器人操作领域的发展。

衍生相关工作

GemBench数据集的提出催生了一系列相关的经典工作，特别是在视觉语言机器人操作策略的泛化能力研究方面。例如，基于GemBench的研究工作提出了3D-LOTUS和3D-LOTUS++等策略，这些策略利用3D信息和语言条件进行动作预测，显著提升了策略在面对新任务时的表现。此外，GemBench还促进了基础模型在机器人操作中的应用研究，如使用大型语言模型（LLMs）进行任务规划和视觉语言模型（VLMs）进行物体定位，进一步提升了机器人操作策略的泛化能力。

以上内容由遇见数据集搜集并总结生成