NatSGLD

Name: NatSGLD
Creator: 美国马里兰大学帕克分校
Published: 2025-02-24 05:27:06
License: 暂无描述

arXiv2025-02-24 更新2025-02-26 收录

下载链接：

https://www.snehesh.com/natsgld/

下载链接

链接失效反馈

官方服务：

资源简介：

NatSGLD数据集是由美国马里兰大学帕克分校的研究团队创建的，包含了18名参与者在11项活动中与机器人进行的1143次多模态指令交互（包括言语和手势）。该数据集通过Wizard of Oz方法收集，记录了人类的多模态指令、示范轨迹和线性时序逻辑公式，为机器人提供了丰富的交互模态和强大的监督信号，可应用于多模态指令跟随、计划识别、基于示范的人类可指导的强化学习等领域。

The NatSGLD dataset was created by a research team from the University of Maryland, College Park, United States. It contains 1,143 multimodal instructional interactions (including speech and gestures) between 18 participants and robots across 11 activities. Collected via the Wizard of Oz methodology, this dataset records human multimodal instructions, demonstration trajectories, and linear temporal logic formulas. It provides rich interaction modalities and robust supervisory signals for robots, and can be applied to domains such as multimodal instruction following, plan recognition, and demonstration-based human-guided reinforcement learning.

提供机构：

美国马里兰大学帕克分校

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

NatSGLD数据集采用了一种名为“巫师学徒”的方法进行构建，参与者与一个他们认为具有自主性的机器人进行交互。数据集记录了人类的语音和手势命令，并将其与演示轨迹和线性时序逻辑（LTL）公式配对，以提供对任务命令的真实解释。此外，数据集还提供了多种视角，如不同的摄像机视图、深度图像和语义分割等，以支持机器人学习。

使用方法

使用NatSGLD数据集时，研究人员可以利用其提供的多模态输入和详细注释来探索多模态指令跟随、计划识别和基于演示的人类建议强化学习等领域。此外，数据集还提供了模拟器和脚本，方便研究人员进行实验和数据分析。

背景与挑战

背景概述

NatSGLD数据集的创建旨在解决当前人机交互（HRI）数据集在处理复杂任务时的局限性。该数据集由马里兰大学帕克分校的研究团队于2025年开发，旨在捕捉人类在自然交流中使用语言和手势的复杂性。现有的数据集通常专注于简单的任务，如物体指向和推动，而NatSGLD则提供了更丰富的交互模式，包括人类的多模态指令（语音和手势），每个指令都与一个演示轨迹和一个线性时序逻辑（LTL）公式配对，后者提供了对指令任务的地面真实解释。这一数据集为HRI和机器学习交叉领域的研究提供了基础资源，促进了多模态指令遵循、计划识别和基于演示的人类可解释强化学习等领域的研究。NatSGLD的发布为未来的HRI研究提供了宝贵的资源，支持了多模态人机交互的深入探索。

当前挑战

NatSGLD数据集面临的主要挑战包括：1) 所解决的领域问题：该数据集旨在解决现有HRI数据集在处理复杂任务和自然交互方面的不足。它需要机器人能够理解和响应人类的自然语言和手势指令，这要求机器人具备高级的语言处理能力和对人类行为的深入理解。2) 构建过程中所遇到的挑战：数据集的构建涉及到模拟器的开发，需要确保模拟器能够实时执行机器人任务，并且能够提供多视角的数据，如多摄像头视图、深度图像和语义分割。此外，数据收集过程采用了“巫师幻术”（WoZ）方法，需要确保参与者的行为自然且不受干扰，同时还需要处理数据同步和注释等问题。这些挑战要求研究人员在数据集构建过程中具备高超的技术和细致的工作。

常用场景

经典使用场景

NatSGLD数据集是专为机器人学习在自然的人机交互场景中而设计的。该数据集记录了人类的多模态指令（语音和手势），并配以示范轨迹和线性时序逻辑（LTL）公式，以提供对所指挥任务的地面真实解释。这使得机器人能够理解和执行复杂的任务，如食品加工和烹饪。NatSGLD数据集通过提供丰富的交互模态和详细的注释，支持在多模态指令跟随、计划识别和基于示范的人类可指导强化学习等领域的研究。

解决学术问题

NatSGLD数据集填补了现有数据集在模拟自然的人机交互方面的空白。它不仅关注语音和手势的整合，还注重训练机器人正确地解释任务并适当地做出响应。此外，NatSGLD通过提供详细的注释和示范轨迹，帮助研究人员更好地理解任务的时间结构和子任务，从而促进了在多模态人机交互领域的研究。该数据集还支持使用LTL公式对任务进行编码，从而为机器人的决策制定提供了一种灵活和紧凑的方法。

实际应用

NatSGLD数据集的实际应用场景包括食品加工、烹饪和清洁等日常任务。它可以帮助机器人理解和执行复杂的任务，从而减轻人类的认知负荷。此外，NatSGLD还可以用于开发人机交互系统，例如智能家居和虚拟助手。这些系统可以理解和响应用户的语音和手势指令，从而提供更加自然和直观的交互方式。

数据集最近研究