UNOBench

Name: UNOBench
Creator: 布鲁诺·凯斯勒基金会
Published: 2025-11-28 21:53:12
License: 暂无描述

arXiv2025-11-28 更新2025-12-02 收录

下载链接：

https://tev-fbk.github.io/UnoGrasp/

下载链接

链接失效反馈

官方服务：

资源简介：

UNOBench是由布鲁诺·凯斯勒基金会构建的大规模基准数据集，旨在训练和评估视觉语言模型在机器人抓取任务中的障碍推理能力。该数据集基于MetaGraspNetV2构建，涵盖合成与真实场景，包含超过10万条人工标注的障碍路径，每条路径均附有障碍比率、接触点及自然语言指令等丰富元数据。数据集的创建过程结合了半自动结构化标注与人工精修，通过Set-of-Marks视觉提示和GPT-4o辅助生成对象描述，并经由众包平台进行语言一致性校验。该数据集主要应用于机器人灵巧操作领域，致力于解决在杂乱场景中通过多步推理规划清除障碍物以实现目标物体抓取的核心挑战。

提供机构：

布鲁诺·凯斯勒基金会

创建时间：

2025-11-28

原始信息汇总

数据集概述：UNOBench

数据集名称

UNOBench

核心目的

用于训练和基准测试机器人抓取任务中的障碍物推理能力。

数据来源与构建

基于MetaGraspNetV2数据集构建。
包含超过10万条由人工标注的障碍物路径。
初始标注由GPT-4o生成，后通过Prolific平台的人工标注者进行精炼。

数据标注内容

障碍物比例。
接触点。
自然语言指令（关于杂乱箱体中物体的自由形式语言指令）。

数据集特性

每个箱体包含用于空间推理的障碍物图。
提供三个难度级别。
引入了新颖的评估指标。

关联模型与方法

该数据集用于训练和评估模型UNOGrasp。

UNOGrasp是一个基于学习的视觉语言模型，能够执行视觉接地的障碍物推理。
训练方法：在UNOBench上进行监督微调以学习结构化的障碍物路径推理，并通过基于GRPO的强化微调进一步利用结果驱动的IoU和格式奖励来提升其推理能力。

论文与引用

相关论文标题：Obstruction reasoning for robotic grasping
作者：Runyu Jiao, Matteo Bortolon, Francesco Giuliari, Alice Fasoli, Sergio Povoli, Guofeng Mei, Yiming Wang, Fabio Poiesi
年份：2025
预印本：arXiv:2511.23186

相关资源链接（绝对地址）

论文：https://arxiv.org/abs/2511.23186
代码：未提供（页面标注为“soon”）
数据：未提供（页面标注为“soon”）

搜集汇总

数据集介绍

构建方式

在机器人操作领域，理解复杂场景中的物体遮挡关系是实现可靠抓取的关键。UNOBench数据集以MetaGraspNetV2为基础，通过半自动化流程构建了大规模遮挡推理标注。其构建过程首先利用真实掩码为每个物体实例叠加唯一的数字标记，形成Set-of-Marks视觉提示；随后基于非模态掩码计算物体间的接触点、遮挡比例及遮挡程度；进而针对每个目标物体构建以目标为中心的遮挡有向图，清晰刻画“被遮挡物体指向遮挡物体”的拓扑关系；最后结合GPT-4o生成与人类标注者修正的自然语言物体描述，形成包含名称、坐标及语义信息的完整三元组。整个流程融合了自动化计算与人工校验，确保了标注的物理准确性与语言描述的可靠性。

特点

该数据集在机器人视觉语言推理领域展现出多重独特优势。其核心特征在于提供了超过十万条人工标注的遮挡路径，每条路径均附有遮挡比例、接触点坐标及自然语言指令等丰富元数据。数据集涵盖合成场景与真实场景，包含从简单单一路径到复杂多路径的多样化遮挡结构，并依据遮挡图深度与路径数量划分为四个难度等级。尤为突出的是，UNOBench同时提供基于标记的Oracle设置与自由形式的自然语言提示设置，前者专注于评估模型的结构化推理能力，后者则模拟真实人机交互场景，要求模型在语言指令下完成空间定位与推理的双重任务。这种双轨设计使其既能支撑模型训练，又能为遮挡推理能力提供全面、细粒度的评测基准。

使用方法

UNOBench数据集为视觉语言模型的训练与评估提供了系统化框架。在训练层面，研究者可利用其丰富的遮挡路径标注，通过监督微调引导模型学习逐步推理的思维链，其中每个推理步骤均锚定于具体的空间坐标与遮挡属性；进一步可结合强化微调，利用基于交并比的验证奖励优化模型输出。在评估层面，数据集提供了多层次度量体系：结果级指标通过精确率、召回率衡量最终动作预测的准确性；物体级指标评估配对遮挡关系的识别能力；路径级指标则通过归一化编辑距离量化完整推理路径的结构对齐程度。用户可根据研究需求，选择Oracle设置以隔离测试纯推理能力，或采用自然语言提示设置考察端到端的语言接地与规划性能，从而全面诊断模型在复杂物理场景中的认知局限。

背景与挑战

背景概述

UNOBench数据集由Fondazione Bruno Kessler与University of Trento的研究团队于2025年构建，旨在推动机器人抓取任务中的空间遮挡推理研究。该数据集基于MetaGraspNetV2，涵盖了合成与真实场景中超过10万条人工标注的遮挡路径，每条路径均包含遮挡比例、接触点及自然语言指令等丰富元数据。其核心研究问题聚焦于如何让视觉语言模型在杂乱环境中理解物体间的物理遮挡关系，并规划多步移除动作以成功抓取目标物体。UNOBench的推出为评估和提升模型的遮挡推理能力提供了首个大规模基准，显著促进了具身智能与机器人操作领域的发展。

当前挑战

UNOBench致力于解决机器人抓取中遮挡推理的挑战，即模型需从视觉输入和自然语言指令中推断目标物体被遮挡的路径，并规划清除遮挡物的动作序列。构建过程中的挑战包括：遮挡路径的精确标注需处理物体间复杂的物理接触与遮挡程度量化；自然语言指令的生成要求唯一标识杂乱场景中的每个物体，涉及大量人工审核以确保语义准确性；数据集的多样性与难度分级需平衡合成数据的规模与真实场景的泛化需求，同时设计合理的评估指标以衡量模型在物体级和路径级推理的性能。

常用场景

经典使用场景

在机器人抓取领域，UNOBench数据集为视觉语言模型提供了大规模、结构化的障碍推理训练与评估基准。该数据集基于MetaGraspNetV2构建，包含超过10万条人工标注的障碍路径，每条路径均附有障碍比率、接触点及自然语言描述。其经典使用场景在于训练模型从杂乱场景中识别目标物体，并推理出为抓取该物体而需优先移除的障碍物序列。通过设定不同难度等级（简单、中等、困难），UNOBench能够系统评估模型在单一路径、多路径及深层障碍链中的推理能力。

实际应用

在实际机器人操作中，UNOBench支持开发能够在仓储分拣、家庭服务等杂乱场景下自主工作的智能系统。基于该数据集训练的模型（如UNOGrasp）可接收自然语言指令（如“抓取白色iPhone盒”），通过RGB-D图像分析物体布局，推理出需移除的障碍物顺序，并输出具体的坐标点以引导机械臂执行清除动作。实验表明，此类系统在真实机器人平台上能显著提高抓取成功率，尤其在物体堆叠密集、遮挡复杂的工业或家庭环境中展现出强大的实用价值。

衍生相关工作

UNOBench的推出催生了一系列专注于障碍推理的经典研究工作。以UNOGrasp为代表，该模型采用目标中心的障碍图构建方法，结合监督微调与强化学习优化，在数据集上实现了最先进的性能。其他衍生工作包括基于图编辑距离的多路径评估指标、融合障碍比率与接触点的视觉提示训练策略，以及针对真实机器人平台的迁移学习框架。这些进展共同推动了视觉语言模型在具身推理领域的发展，并为后续研究如多视角感知、动态场景适应等方向提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集