SQA和CSI

Name: SQA和CSI
Creator: 西湖大学，浙江大学，西安交通大学
Published: 2025-02-19 15:53:45
License: 暂无描述

arXiv2025-02-19 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.13508v1

下载链接

链接失效反馈

官方服务：

资源简介：

SQA（Speech Question Answering）数据集和CSI（Customized Speech Instruction）数据集是专为训练VLAS模型而创建的。SQA数据集由23K个场景组成，每个场景包含389个文本指令和194K个音频指令，覆盖了500种不同的声音，用于训练模型理解和执行基于语音的指令。CSI数据集则包含了500个不同声音的语音指令，用于增强模型在个性化语音指令理解方面的能力。这两个数据集的构建旨在推动机器人操作中语音指令的端到端处理技术的发展。

SQA (Speech Question Answering) and CSI (Customized Speech Instruction) datasets are specially developed for training the VLAS model. The SQA dataset comprises 23K scenarios, each containing 389 text instructions and 194K audio instructions, covering 500 distinct sound types, and is designed to train models to comprehend and execute speech-based instructions. The CSI dataset, by contrast, includes speech instructions derived from 500 different sounds, aiming to enhance the model’s capability in understanding personalized speech instructions. The construction of these two datasets is intended to advance the development of end-to-end processing technologies for speech instructions in robotic manipulation.

提供机构：

西湖大学，浙江大学，西安交通大学

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

SQA和CSI数据集是通过精心设计的语音指令三阶段调整过程构建的，旨在支持机器人操作中语音指令的理解。首先，使用成熟的编码器对语音进行处理，以获得隐藏表示。然后，多层感知器（MLPs）被微调，以将这些表示转换为LLaVA统一的语言空间。接下来，LLaVA模型和上述MLPs与包括SQA和VQA数据集在内的多模态数据集一起进行微调。最后，通过行为克隆（Behavior Cloning）在包含图像观察、语音指令和机器人操作轨迹的CSI数据集上进一步微调VLAS-Base模型。这种构建方式确保了模型能够有效地处理语音指令，并生成相应的机器人动作。

特点

SQA和CSI数据集的特点在于它们能够支持多模态交互，包括文本、图像、语音和机器人动作。这些数据集通过语音指令的三阶段调整过程构建，能够使机器人理解语音命令并通过内部语音-文本对齐产生相应的动作。此外，这些数据集还支持语音检索增强生成（RAG）范式，使模型能够有效地处理需要特定个人知识的任务。

使用方法

SQA和CSI数据集的使用方法包括三个阶段。首先，使用LibriSpeech-360语音识别数据集进行语音对齐的粗粒度模态对齐。其次，使用SQA数据集和原始视觉问答（VQA）数据集以及LibriSpeech-100语音识别数据集对模型进行微调。最后，在包含图像观察、语音指令和机器人操作轨迹的CSI机器人操作数据集上进一步微调模型。这种使用方法确保了模型能够有效地理解语音指令，并生成相应的机器人动作。

背景与挑战

背景概述

随着机器人在家庭护理等领域的应用日益广泛，人们对机器人的自然交互能力提出了更高的要求。传统的视觉-语言-动作模型（VLAs）主要依赖于基于文本的指令，而忽略了更自然的语音模态。为了解决这一问题，Wei Zhao等人提出了VLAS，一个创新的端到端VLAs模型，它直接将语音识别集成到机器人策略模型中，使得机器人能够通过内语音-文本对齐来理解口头命令，并产生相应的动作来完成定制任务。为了支持这一三阶段调整过程，作者还提出了两个新的数据集：SQA和CSI，这两个数据集涵盖了文本、图像、语音和机器人动作等多模态交互，为VLAs模型的研究和应用提供了重要的数据基础。

当前挑战

VLAS模型的研究背景和挑战主要集中在以下几个方面：首先，现有的VLAs主要依赖于基于文本的指令，而忽略了更自然的语音模态。其次，传统的语音集成方法通常涉及到一个单独的语音识别系统，这会使得模型变得更加复杂，并引入错误传播。此外，转录过程会丢失原始语音中的非语义信息，如声纹，这可能对机器人成功完成定制任务至关重要。为了克服上述挑战，VLAS模型直接将语音识别集成到机器人策略模型中，使得机器人能够直接理解口头命令。同时，VLAS模型还引入了Voice RAG方法，使得模型能够有效地处理需要个体特定知识的任务。

常用场景

经典使用场景

SQA和CSI数据集被设计用于支持机器人操作的视觉语言动作模型（VLA）的训练，特别是那些直接接受语音指令的模型。这些数据集通过提供丰富的语音指令、视觉观察和机器人操作轨迹，为VLA模型的训练提供了必要的数据支持。这些数据集允许机器人理解语音指令，并通过内在的语音文本对齐生成相应的动作来完成任务，从而实现自然和定制化的交互体验。

实际应用

SQA和CSI数据集在实际应用中具有广泛的前景。这些数据集可以帮助开发能够理解并响应语音指令的机器人，这在家庭护理、教育、工业自动化等领域具有重要意义。例如，在家庭护理中，机器人可以根据用户的语音指令执行各种任务，如倒水、开关灯等，从而提高用户的生活质量。此外，这些数据集还可以用于开发能够理解并响应语音指令的游戏和虚拟现实应用程序，为用户提供更加沉浸式的体验。

衍生相关工作

SQA和CSI数据集的提出引发了学术界对语音指令在机器人操作中的集成和应用的研究。这些数据集为研究人员提供了丰富的语音指令数据，从而推动了VLA模型在语音理解方面的研究。此外，这些数据集还促进了语音识别技术和自然语言处理技术的发展，使得机器人能够更好地理解并响应人类的指令。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集