WheelArmWoZDataset

Name: WheelArmWoZDataset
Creator: 圣路易斯大学·航空航天与机械工程系; 圣路易斯大学·计算机科学系
Published: 2026-01-24 00:22:21
License: 暂无描述

arXiv2026-01-24 更新2026-01-27 收录

下载链接：

https://madibabaiasl.github.io/WheelArmWoZDataset/

下载链接

链接失效反馈

官方服务：

资源简介：

WheelArmWoZDataset是由圣路易斯大学团队构建的多模态人机交互数据集，旨在解决辅助机器人对话控制中的模糊性问题。该数据集包含53次试验，覆盖开门、抽屉开启、饮水、喂食和清洁5类日常辅助任务，同步采集RGB-D视频、对话音频、IMU信号、末端执行器位姿及全身关节状态等五类模态数据。数据通过虚拟现实遥操作系统和两房间Wizard-of-Oz协议采集，模拟真实场景下的自然对话交互。该数据集可支持移动辅助设备的智能控制算法开发，推动基于多模态学习的歧义消解研究。

提供机构：

圣路易斯大学·航空航天与机械工程系; 圣路易斯大学·计算机科学系

创建时间：

2026-01-24

原始信息汇总

WheelArmWoZDataset 数据集概述

数据集基本信息

数据集名称：A Multimodal Data Collection Framework for Dialogue-Driven Assistive Robotics to Clarify Ambiguities: A Wizard-of-Oz Pilot Study
发布者/作者：Guangping Liu, Nicholas Hawkins, Billy Madden, Tipu Sultan, Flavio Esposito, Madi Babaiasl
所属机构：Saint Louis University
数据集访问地址：https://madibabaiasl.github.io/WheelArmWoZDataset/
演示视频地址：https://youtu.be/4Ei7vba7TNY

研究背景与目的

研究背景：轮椅和轮椅安装机械臂（WMRA）的集成控制有巨大潜力，但现有界面缺乏直观辅助交互所需的灵活性。尽管数据驱动的AI方法前景广阔，但进展受到缺乏捕捉自然人机交互（HRI）的多模态数据集的限制，特别是对话驱动控制中的对话模糊性。
研究目的：提出一个多模态数据收集框架，以解决缺乏捕捉自然人机交互（HRI）的多模态数据集的问题，特别是对话驱动控制中的对话模糊性。

数据集内容与规模

数据规模：包含53个试验。
参与者：5名参与者。
任务场景：5个移动辅助任务，在真实世界环境中进行。
收集方法：采用 Wizard-of-Oz （WoZ）方法模拟机器人自主性，同时引发自然的用户行为。

数据模态与同步

同步模态数量：5种。
具体模态：
1. RGB-D 视频。
2. 对话音频。
3. 惯性测量单元（IMU）信号。
4. 末端执行器笛卡尔位姿。
5. 全身关节状态。

数据质量验证

验证方法：
1. 运动平滑度分析。
2. 用户反馈。
验证结果：该框架有效地捕捉了多种模糊性类型，并支持自然的对话驱动交互，证明了其适用于扩展为更大的数据集，用于学习、基准测试和模糊感知辅助控制的评估。

数据集特点与比较优势

特点：结合了自然对话与操作和导航任务。
比较优势：现有的多模态数据集主要关注多模态操作或模拟对话交互，但很少提供结合自然对话与操作和导航任务的真实世界数据。

数据分析维度

任务演示：通过每个任务的样本视频和对话进行定性分析，评估视频质量、WheelArm运动和参与者与WheelArm之间的对话。
一般信息与运动分析：跨任务的数据分布、时间持续时间、末端执行器路径长度、以及轮椅和末端执行器运动的加加速度分析。
对话分析：按模糊性类型、话语数量和模糊性分布分析任务分布。
问卷分析：通过李克特量表总结用户对基于对话的交互和WheelArm自主性的反馈。

发布与引用

发布状态：数据集和代码将在论文被接受后发布。
引用格式：

@article{liu2026biorob, author = {Liu, Guangping and Hawkins, Nicholas and Madden, Billy and Sultan, Tipu and Esposito, Flavio and Babaiasl, Madi}, title = {A Multimodal Data Collection Framework for Dialogue-Driven Assistive Robotics to Clarify Ambiguities: A Wizard-of-Oz Pilot Study}, journal = {BioRob}, year = {2026}, }

搜集汇总

数据集介绍

构建方式

在辅助机器人领域，为捕捉自然的人机交互对话，WheelArmWoZDataset采用了一种精心设计的双房间“绿野仙踪”协议构建框架。该框架通过虚拟现实远程操作系统，模拟轮椅与机械臂的自主行为，同时记录五类同步模态数据，包括RGB-D视频、人机对话音频、惯性测量单元信号、末端执行器笛卡尔位姿及全身关节状态。实验设置涵盖开门、开抽屉、饮水、喂食和清洁五项日常辅助任务，通过物理隔离的操作者隐蔽控制，成功诱发了53次试验中用户的真实对话反应，确保了数据的生态效度与多模态对齐。

使用方法

WheelArmWoZDataset适用于辅助机器人、人机交互及多模态机器学习的研究。使用者可通过公开的数据集链接获取同步的多模态数据流，包括视频、音频、IMU及机器人运动日志。数据已按任务分类并经过时间对齐处理，便于直接用于模型训练与评估。研究者可基于对话转录与歧义标注，开发能够解析模糊指令的对话系统；亦可利用平滑的机器人运动数据，进行模仿学习或强化学习算法的基准测试。该数据集为构建直观的、基于对话的智能辅助控制提供了关键的实证基础。

背景与挑战

背景概述

随着人工智能技术在辅助机器人领域的深入应用，自然语言交互成为提升用户独立性的关键途径。然而，现有系统多依赖于预定义指令，难以处理日常对话中固有的模糊性与不确定性，这严重制约了智能辅助设备在真实场景中的实用性与用户体验。为填补这一空白，圣路易斯大学的研究团队于2026年创建了WheelArmWoZDataset，该数据集旨在通过模拟自主机器人的对话驱动交互，捕捉真实世界辅助任务中的多模态数据。其核心研究问题聚焦于如何利用自然对话解析并澄清用户指令中的歧义，从而推动能够理解模糊意图的智能辅助控制系统的开发。该数据集首次同步记录了真实环境中移动辅助任务的自然人机对话、视觉信息与全身机器人状态，为基于数据驱动的辅助机器人学习、基准测试与评估提供了重要资源，对促进直观、包容的辅助技术发展具有深远影响。

当前挑战

WheelArmWoZDataset致力于解决辅助机器人领域人机交互中指令模糊性解析的根本挑战。自然语言指令常包含空间、指代、意图及时间等多重歧义，传统基于预定义命令的接口无法有效应对，导致交互僵化且认知负荷高。构建该数据集的过程亦面临显著挑战：其一，需设计并集成一套能够同步控制轮椅与机械臂的虚拟现实遥操作系统，并确保多模态数据（如RGB-D视频、音频、IMU、机器人运动学）的高精度同步采集；其二，采用‘魔法师’实验范式以模拟机器人自主性并诱发用户自然对话，这要求严格的实验协议设计、物理空间分离以及操作员的高强度训练，以维持实验的生态效度并减少人为失误；其三，在复杂的真实世界环境中进行数据收集与后期处理，需克服传感器噪声、运动伪影以及多流数据对齐等技术难题，以确保最终数据集的质与量满足研究需求。

常用场景

经典使用场景

在辅助机器人领域，WheelArmWoZDataset数据集为研究对话驱动的交互控制提供了关键的多模态基准。该数据集通过模拟真实世界中的五项日常辅助任务，如开门、取物、饮水、进食和清洁，系统记录了人类与机器人之间的自然对话、视觉场景及机器人运动状态。研究者可借助这一数据集，深入探索在复杂环境下机器人如何通过多轮对话理解并澄清用户的模糊指令，从而推动对话式辅助控制算法的开发与验证。

解决学术问题

该数据集有效解决了辅助机器人研究中自然语言交互的模糊性解析难题。传统语音控制往往依赖预设指令，难以处理开放场景中的空间、指代及意图歧义。WheelArmWoZDataset通过记录真实人机对话中的多类歧义实例，为开发基于大语言模型的对话系统提供了数据基础，使得机器人能够通过主动询问来消解歧义，实现更精准的任务执行。这一进展显著降低了用户认知负荷，提升了辅助设备的实用性与接受度。

实际应用

在实际应用中，该数据集可直接支持智能轮椅与机械臂一体化系统的开发。通过分析数据集中包含的对话、视觉及运动信息，工程师能够训练出能够理解日常模糊指令的辅助机器人，例如根据“我渴了”这类间接表达自动完成取水递送。此类系统有望应用于脊髓损伤患者或行动不便者的日常生活，提供更直观、自然的辅助交互方式，从而增强用户的独立生活能力。

数据集最近研究