wow-1

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/KHandsome/wow-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot框架创建，是一个机器人技术领域的开源数据集，采用Apache-2.0许可证。数据集包含54个完整任务片段（episodes），共计28,899帧数据，对应单一任务类型。数据以分块Parquet文件（总大小约100MB）和配套视频文件（总大小约200MB）的形式存储，视频帧率为30fps。数据集记录了so100_wowskin类型机器人的操作数据，主要特征包括：1) 动作指令：6维浮点数组，控制肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置；2) 观测状态：6维浮点数组，反映上述关节的实际位置；3) 触觉观测（wowskin）：15维浮点数组；4) 图像观测：包含基座摄像头和腕部摄像头的RGB视频流，分辨率均为640x480；5) 元数据：时间戳、帧索引、片段索引、全局索引和任务索引。数据集仅提供训练集划分（全部54个片段）。

This dataset is developed with the LeRobot framework, serving as an open-source robotics dataset licensed under the Apache-2.0 license. It contains 54 complete task episodes, totaling 28,899 frames, corresponding to a single task category. The dataset is stored as chunked Parquet files (total size approximately 100 MB) and accompanying video files (total size approximately 200 MB), with a video frame rate of 30 fps. It records operational data for the so100_wowskin robot, with its core features listed below: 1) Action commands: 6-dimensional floating-point arrays that control shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation and gripper position; 2) Observation states: 6-dimensional floating-point arrays reflecting the actual positions of the aforementioned joints; 3) Tactile observations (wowskin): 15-dimensional floating-point arrays; 4) Image observations: RGB video streams from both the base camera and wrist camera, both with a resolution of 640×480; 5) Metadata: timestamps, frame index, episode index, global index and task index. Only the training set split is provided, covering all 54 episodes.

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

wow-1数据集基于LeRobot框架构建，旨在为机器人操作任务提供高质量的训练数据。该数据集通过真实的so100_wowskin型机器人平台采集，共包含54个完整回合并总计28899帧数据，帧率为30FPS。数据以Parquet格式存储于分块文件中，每块包含1000帧，同时配备AV1编码的视频数据（分辨率480×640）。所有数据被统一划分为训练集，未设置验证或测试子集。

特点

wow-1数据集的一大特色在于其多模态融合特性，同时收录了机器人6维关节动作（如肩部、肘部、腕部及夹爪位置）、高维触觉信号（15维wowskin传感器数据）以及双视角视觉图像（基座与腕部摄像头）。所有动作与状态数据均以32位浮点数记录，确保高精度。时序信息通过时间戳与帧索引精确标记，便于序列建模。数据集采用Apache-2.0许可，开放使用。

使用方法

该数据集适用于模仿学习与强化学习场景，尤其是机械臂操作任务的模型训练。用户可通过LeRobot库直接加载Parquet与视频文件，利用提供的特征名称（如action、observation.state）提取行动与状态序列。由于训练集包含全部回放，研究者可直接进行端到端策略学习。建议将时序数据按回放索引分组，构建观察-动作对用于监督训练，或将触觉与视觉特征融合以提升鲁棒性。

背景与挑战

背景概述

在机器人学习领域，模仿学习作为一种高效的技能获取范式，日益受到研究者的关注。wow-1数据集诞生于这一背景下，由HuggingFace的LeRobot框架所创建，旨在为机器人操作任务的模仿学习提供标准化数据。该数据集采集于so100_wowskin机器人平台，包含54个演示片段、总计28899帧的高频运动与视觉记录，涵盖了6自由度关节状态、15维触觉传感器信号以及双目摄像头视频流。其核心研究问题在于通过多模态感知数据，推动机器人从人类示范中学习精细操作技能，尤其是在涉及接触和力反馈的密集操控任务中。作为开源社区的代表性数据集，wow-1为基于体验回放和端到端学习的机器人算法提供了宝贵的基准资源，推动了低成本、高复现性机器人研究的进展。

当前挑战

该数据集所应对的领域挑战，聚焦于机器人精细操作中的多模态融合与泛化难题。传统的视觉模仿学习常受限于缺乏触觉信息，导致无法适应物体变形或抓取力不足等复杂场景，而wow-1引入的15维触觉数据（wowskin）填补了这一空白，使模型能感知接触状态，进而提升灵巧操作的鲁棒性。在构建过程中，面临的挑战同样严峻：如何确保高帧率（30fps）下传感器数据的同步与精确记录，以及如何设计标准化的数据格式以支持LeRobot框架的无缝集成。此外，54个片段的有限规模要求数据采集策略必须高效，通过精心编排的演示任务在精简样本中最大化信息密度，同时利用AV1视频编码在保持480×640分辨率的同时控制存储消耗于200MB以内，实现了质量与效率的平衡。

常用场景

经典使用场景

在机器人学习与操控领域，wow-1数据集为模仿学习与行为克隆提供了珍贵的多模态训练资源。该数据集记录了so100_wowskin型机械臂执行单一任务时的完整轨迹，共包含54个episode、近3万帧高保真数据，涵盖6维关节角度状态、15维触觉皮肤信号以及双视角（基座与腕部）的视觉流。研究者可借助这些对齐的时序信息，训练模型学习从视觉与触觉感知到精细动作输出的映射关系，尤其适用于从示范中习得灵巧操作的经典范式。

衍生相关工作

围绕wow-1数据集，衍生工作可聚焦于多模态特征融合架构的优化、基于Transformer的序列建模，以及域自适应迁移学习策略。LeRobot生态中基于此数据集的研究，可能催生融合触觉时序编码与视觉注意力机制的新型网络结构。此外，该数据集的高频30fps动作轨迹可支撑基于扩散策略的精细轨迹生成研究，其触觉模态还可用于开发接触状态预测器，为后续的应力感知控制与安全规约算法奠定实证基础。

数据集最近研究