WheelArm_WoZ_Pilot_Dataset

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Cordelia/WheelArm_WoZ_Pilot_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

WheelArm Synchronized Dataset是一个用于辅助日常生活任务的多模态轮椅机器人臂演示数据集。该数据集采集自安装在电动轮椅上的Kinova Gen3 6自由度机械臂，包含5名受试者执行的5类辅助日常生活任务，共计53个演示片段。每个片段提供了时间对齐的多模态数据流，包括：两个视角的RGB视频（ego视角和腕部视角）及其元数据；两个深度相机数据及相机内参；完整的机器人运动学数据（关节位置/速度/力矩、末端执行器笛卡尔位姿、IMU数据、轮椅基座状态、操纵杆命令）；双通道音频（头戴式麦克风和笔记本电脑麦克风，48kHz单声道PCM_16）；以及标注了语用歧义的人机对话转录。数据集按任务类别组织目录，总大小约47GB，适用于机器人学习、人机交互、多模态感知与决策、辅助机器人技术等研究领域。

The WheelArm Synchronized Dataset is a multimodal wheelchair-mounted robotic arm demonstration dataset for assistive daily living tasks. This dataset is collected from a Kinova Gen3 6-degree-of-freedom (6DoF) robotic arm mounted on an electric wheelchair, and contains 53 demonstration segments of 5 categories of assistive daily living tasks performed by 5 participants. Each segment provides time-aligned multimodal data streams, including: RGB videos from two perspectives (egocentric view and wrist view) along with their metadata; data from two depth cameras and their intrinsic parameters; complete robotic kinematic data including joint position, velocity, torque, Cartesian pose of the end-effector, IMU data, wheelchair base state and joystick commands; dual-channel audio collected via a head-mounted microphone and a laptop microphone, with specifications of 48kHz mono PCM_16; and human-robot conversation transcripts annotated with pragmatic ambiguity. The dataset is organized into directories by task category, with a total size of approximately 47 GB. It is applicable to research fields such as robotic learning, human-robot interaction, multimodal perception and decision-making, and assistive robotics.

创建时间：

2026-05-19

原始信息汇总

数据集概述

数据集名称

WheelArm Synchronized Dataset — 轮椅上机械臂同步数据集。

数据集摘要

这是一个真实机器人数据集，收集自安装在电动轮椅上的 Kinova Gen3 6自由度机械臂。五名受试者在53个任务片段中执行了五项辅助性日常生活任务。每个片段提供来自两个RGB摄像头、两个深度摄像头、所有机器人关节和笛卡尔状态、IMU、轮椅底座状态、摇杆命令、双麦克风音频以及带语用歧义标注的人机对话转录文本的时域对齐数据流。

属性	数值
总片段数	53
任务类别	5
受试者人数	5
总大小	约47 GB
音频采样率	48 kHz 单声道 PCM_16

支持的任务

任务	片段数
`drinking`（饮水）	9
`door_opening`（开门）	15
`drawer_opening`（开抽屉）	16
`cleaning`（清洁）	4
`feeding`（喂食）	9

数据集结构与命名规则

目录布局示例

WheelArm_WoZ_Multimodal_Pilot/ ├── drinking/ │ ├── 1-drinking-3/ # {受试者}-{任务}-{变体} │ │ ├── cam_0_rgb_video.avi │ │ ├── cam_0_depth.h5 │ │ ├── cam_2_rgb_video.avi │ │ ├── cam_2_depth.h5 │ │ ├── kinova_gen3_joint_states.h5 │ │ ├── kinova_gen3_cartesian_states.h5 │ │ ├── kinova_gen3_imu.h5 │ │ ├── kinova_gen3_wheelchair_states.h5 │ │ ├── kinova_gen3_wheelchair_joy_commands.h5 │ │ ├── headset_audio.wav │ │ ├── laptop_mic.wav │ │ └── synchronization/ │ │ ├── master.jsonl │ │ ├── cam_0_synced_ref_fps.mp4 │ │ ├── cam_2_synced_ref_fps.mp4 │ │ ├── ee_jerk_stats.csv │ │ ├── ee_jerk_timeseries.csv │ │ └── ... │ └── summary/ ├── door_opening/ ├── drawer_opening/ ├── cleaning/ └── feeding/

片段命名规则

格式为 {subject}-{task}-{variant}：

subject: 1–5的整数，标识操作者
task: 任务缩写（drinking, door, drawer, cleaning, feeding）
variant: 同一受试者同一任务下的重复序号

示例: 2-drinking-3 表示受试者2、饮水任务、第3次重复。

数据字段详情

RGB视频

文件: cam_0_rgb_video.avi, cam_2_rgb_video.avi
摄像头: cam_0 — 第一人称视角；cam_2 — 机械臂腕部视角
帧率: 约12 Hz；约15 Hz
元数据文件 (.metadata): Python pickle对象，包含文件名、总帧数、记录起止Unix时间戳、记录时长、记录频率、每帧Unix时间戳列表

深度数据

文件: cam_0_depth.h5, cam_2_depth.h5
格式: HDF5，包含逐帧深度数组
元数据: cam_2_depth.metadata 包含帧数、记录频率（约14.7–14.8 Hz）、相机内参（分辨率480×270像素，K矩阵，plumb_bob畸变模型，畸变系数均为0）

机器人运动学数据

所有运动学数据均存储在HDF5文件中，包含时间索引数组：

文件	内容
`kinova_gen3_joint_states.h5`	6个关节的位置(弧度)、速度(弧度/秒)、力矩(牛·米)、时间戳(秒)
`kinova_gen3_cartesian_states.h5`	末端执行器位置(米) + 四元数姿态
`kinova_gen3_imu.h5`	姿态(四元数)、姿态协方差、角速度(弧度/秒)、角速度协方差、线性加速度(米/秒²)、时间戳(秒)
`kinova_gen3_wheelchair_states.h5`	左右轮角度(弧度)和速度
`kinova_gen3_wheelchair_joy_commands.h5`	轴、按钮、时间戳(秒)

音频数据

文件: headset_audio.wav, laptop_mic.wav
采样率: 48000 Hz
声道: 1（单声道）
位深: PCM_16
编码帧: 20 ms
典型大小: 11–20 MB/文件
麦克风: 操作者佩戴的头戴式麦克风 + 捕捉环境声音的笔记本电脑麦克风

对话标注与同步数据

存储在 synchronization/ 子目录中，包含：

文件	描述
`master.jsonl`	对话格式的逐轮对话，含图像引用和歧义标签
`cam_0/2_synced_ref_fps`	按照参考网格时间戳同步后的视频
`ee_jerk_stats.csv`	末端执行器急动度指标（路径长度、平均/最大急动度、急动能量）
`ee_jerk_timeseries.csv`	末端执行器沿x/y/z轴的急动度、幅度及平方
`filtered_joints.csv`	滤波后的关节轨迹
`filtered_ee.csv`	滤波后的末端执行器轨迹
`timestamps_synced_refgrid.csv`	参考网格同步时间戳
`refgrid_interpolated_and_filtered.csv`	经零相位四阶巴特沃斯滤波后的数据

许可证

cc-by-nc-4.0（知识共享-署名-非商业性使用 4.0 国际）

搜集汇总

数据集介绍

构建方式

WheelArm_WoZ_Pilot_Dataset 是一套专为辅助日常生活任务设计的轮椅载机器人手臂多模态数据集。数据采集于一台搭载 Kinova Gen3 六自由度机械臂的电动轮椅平台，由五位受试者在真实操作环境中完成五种典型辅助任务，共计53个试验片段。每个片段均以时间对齐方式同步记录来自两个RGB摄像头、两个深度摄像头、机器人关节与末端执行器状态、惯性测量单元、轮椅底座状态、摇杆指令、双麦克风音频以及人机对话文本等多模态数据流，并额外对对话中的语用模糊性进行了精细标注。

使用方法

数据集以按任务与试验编号命名的层级目录结构组织，每个试验文件夹内直接存放原始传感器文件（如AVI格式视频、HDF5格式深度与运动学数据、WAV格式音频）及对应的元数据描述文件，便于直接解析。同步数据统一存放于`synchronization`子目录中，内含主对话标注文件`master.jsonl`、关键帧图像与经滤波的末端执行器加加速度及关节轨迹CSV文件。研究人员可通过HDF5接口加载运动学与深度数据，利用OpenCV解码视频流，结合时间戳矩阵进行多模态对齐分析，并利用标注文件开展人机对话理解、辅助机器人控制策略生成等下游任务研究。

背景与挑战

背景概述

随着社会老龄化进程的加速以及残障人士对独立生活需求的日益增长，辅助机器人技术成为人机交互领域的研究热点。在此背景下，WheelArm_WoZ_Pilot_Dataset由研究团队于近期创建，聚焦于轮椅搭载机械臂在日常生活辅助任务中的多模态数据采集。该数据集以Kinova Gen3六自由度机械臂与电动轮椅为实验平台，涵盖五位受试者执行的饮水、开门、开抽屉、清洁及喂食五项任务，共53个完整情节。其核心研究问题在于探索人机协作中自然语言指令的语用歧义性、多传感器融合的时空同步机制，以及基于演示学习的机器人控制策略。该数据集凭借其丰富的模态信息与精细的标注体系，为解决辅助机器人领域的现实难题提供了标准化基准，对推动社会辅助机器人技术的发展具有重要影响。

当前挑战

该数据集面临的核心挑战体现在多个层面。首先，在领域问题层面，轮椅机械臂系统需要应对非结构化动态环境中的复杂任务，例如精确操控物体、适应个体差异化的操作风格，并在人机对话中有效消解语用歧义。其次，在构建过程中，多模态数据流的精确时空同步是一大技术难点，不同传感器（RGB相机、深度相机、关节状态、音频等）的采样频率差异显著，需通过参考网格与零相位滤波实现亚帧级对齐。此外，实验场景涉及五位受试者的重复性操作，如何控制任务变体间的自然变异度、确保数据标注的一致性与完备性，并处理无线通信下的数据丢包与噪声干扰，均为数据集的构建带来了严峻挑战。

常用场景

经典使用场景

在辅助机器人领域，WheelArm_WoZ_Pilot_Dataset为开发与评估人机协作算法提供了多模态基准。研究者可借助其同步的RGB视频、深度图、关节运动学与驾驶杆指令，训练机械臂在轮椅上执行抓取、开门、推拉抽屉等日常动作。其独特之处在于融合了语音指令与语用歧义标注，使得自然语言与物理动作的联合建模成为可能。同时，该数据集严格保证了时间轴对齐，便于构建端到端的视觉-语言-动作流水线，为模仿学习与行为克隆范式提供了高质量训练素材。

解决学术问题

该数据集解决了轮椅装载机械臂在非结构化家庭环境中缺乏标准化多模态标注数据的问题。它首次提供了包含语用歧义的人类-机器人对话标注，使研究者能够探索语言理解中上下文依赖的模糊消解机制。通过提供五类精细操作任务的重复示范，该数据集支撑了动作泛化与技能迁移的研究，例如不同操作者在同一任务中的运动风格差异分析。此外，它对末端执行器急动度量与关节轨迹的滤波整理，为研究运动平滑度与人类演示的效率评估提供了可靠基准。

实际应用

在实际应用中，该数据集助力开发为运动障碍人士服务的智能轮椅助手。基于其记录的摇杆指令与关节状态，可训练机械臂自主执行饮水、进食等辅助操作，减少护理依赖。数据集中的双麦克风录音与头戴麦克风语音，支持构建抗噪的语音交互界面，使残障用户能以自然语言下达指令。同时，不同视角的视觉数据可训练物体抓取检测模型，结合深度信息完成空间定位，最终实现从“人操控”到“人与机器人共控”的渐进式过渡。

数据集最近研究