LLM-Handover Dataset

Name: LLM-Handover Dataset
Creator: ETH Zurich, Switzerland
Published: 2025-09-29 20:33:41
License: 暂无描述

arXiv2025-09-29 更新2025-10-01 收录

下载链接：

https://andreeatulbure.github.io/llm-handover/

下载链接

链接失效反馈

官方服务：

资源简介：

LLM-Handover数据集包含60个日常家用对象，跨越12个语义类别，每个类别有五个不同的实例，每个对象被捕获在三种不同的姿态，共180张RGB-D图像。数据集的每个对象都被详细标注了2D的地面真实面具。数据集旨在支持机器人操作任务中的进一步研究。

The LLM-Handover Dataset contains 60 everyday household objects spanning 12 semantic categories, with each category comprising 5 distinct instances. Each object is captured in three different poses, totaling 180 RGB-D images. Every object in this dataset is meticulously annotated with 2D ground-truth masks. The dataset is designed to support further research in robotic manipulation tasks.

提供机构：

ETH Zurich, Switzerland

创建时间：

2025-09-29

搜集汇总

数据集介绍

构建方式

在机器人操作任务中，高质量的数据集对于评估任务导向的物体交接至关重要。LLM-Handover数据集的构建采用了系统化的方法，涵盖了60个日常家用物品，这些物品被划分为12个语义类别，每个类别包含5个不同实例。数据采集在无杂物的桌面环境中进行，每个物体以三种不同姿态被RGB-D相机捕获，最终形成180张图像。所有图像均经过人工精细标注，为每个物体部分提供了二维真实掩码，确保了数据的准确性和一致性。

特点

该数据集在机器人-人类交互领域展现出显著特点，其覆盖的物体类别具有广泛的代表性，包括瓶子、锤子、刀具等常见家居用品。每个类别不仅包含形态各异的实例，还标注了功能相关的部件信息，如锤子的手柄与头部、刀具的刀柄与刀刃等。这种细致的部件级标注为研究任务导向的抓取策略提供了丰富的语义和几何信息。数据集的结构设计支持对常规与非常规任务场景的评估，为机器人交接任务的零样本泛化能力研究奠定了坚实基础。

使用方法

在机器人-人类交接任务研究中，该数据集可作为评估任务感知抓取算法性能的重要基准。研究者可利用其提供的RGB-D图像和部件标注，验证部分分割算法的准确性，例如通过交并比和F1分数等指标进行量化分析。数据集支持对LLM驱动推理框架的测试，通过输入任务描述和物体图像，评估系统在推断人类后续任务、选择适宜抓取区域等方面的能力。此外，该数据集的开放特性促进了跨方法比较研究，为开发更直观、高效的机器人交接系统提供了可靠的数据支撑。

背景与挑战

背景概述

随着机器人在日常环境中的普及，其与人类协作完成联合任务的能力日益受到关注。人机交互研究聚焦于物理协调与上下文理解，其中物体交接作为协作成功的关键环节，于2025年由苏黎世联邦理工学院机器人系统实验室团队提出LLM-Handover数据集。该数据集包含12个类别的60个家居对象，每个对象标注了详细部件标签，旨在解决任务导向型交接问题，即机器人需根据人类接收者的后续任务意图优化物体呈现方式。通过结合大语言模型的语义推理与部件分割技术，该数据集推动了机器人对任务上下文的感知能力，为人机协作的智能化发展提供了重要基准。

当前挑战

任务导向型机器人-人类交接面临双重挑战：在领域问题层面，现有方法难以泛化处理人类后续任务的动态意图，例如常规任务（如用锤子敲击）与非常规任务（如用螺丝刀演奏木琴）的语义差异导致推理偏差；在构建过程中，部件分割的精度制约系统性能，现有算法易出现过度分割或遗漏关键部件，且依赖的空间几何信息在薄壁物体（如牙刷）中易产生数据噪声。此外，人类偏好与实时交互的适应性尚未纳入当前框架，限制了自然交接体验的实现。

常用场景

经典使用场景

在机器人-人类协作领域，LLM-Handover数据集被广泛应用于任务导向的物体交接研究。该数据集通过整合RGB-D图像与详细的功能部件标注，支持系统在交接过程中推断人类后续任务意图，从而优化机器人抓取策略。其典型使用场景包括家庭环境中的工具传递，例如将螺丝刀以适合拧螺丝的朝向交付，或在厨房场景中递送锅具时确保手柄便于人类抓握。

衍生相关工作

该数据集催生了多项结合多模态推理的延伸研究。GraspGPT通过自然语言描述实现抓取策略迁移，LANgrasp融合视觉语言模型与部件分割技术，FoundationGrasp则探索了基础模型在任务导向抓取中的泛化能力。这些工作共同推进了语义感知抓取领域的发展，并为动态人机协作场景提供了新的技术路径。

数据集最近研究