wow-1
收藏Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/KHandsome/wow-1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot框架创建,是一个机器人技术领域的开源数据集,采用Apache-2.0许可证。数据集包含54个完整任务片段(episodes),共计28,899帧数据,对应单一任务类型。数据以分块Parquet文件(总大小约100MB)和配套视频文件(总大小约200MB)的形式存储,视频帧率为30fps。数据集记录了so100_wowskin类型机器人的操作数据,主要特征包括:1) 动作指令:6维浮点数组,控制肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置;2) 观测状态:6维浮点数组,反映上述关节的实际位置;3) 触觉观测(wowskin):15维浮点数组;4) 图像观测:包含基座摄像头和腕部摄像头的RGB视频流,分辨率均为640x480;5) 元数据:时间戳、帧索引、片段索引、全局索引和任务索引。数据集仅提供训练集划分(全部54个片段)。
This dataset is created using the LeRobot framework and is an open-source dataset in the field of robotics, licensed under Apache-2.0. It contains 54 complete task episodes, totaling 28,899 frames, corresponding to a single task type. The data is stored as chunked Parquet files (total size approximately 100MB) and accompanying video files (total size approximately 200MB), with a video frame rate of 30fps. The dataset records operational data for the so100_wowskin type robot, with key features including: 1) Action commands: 6-dimensional floating-point arrays controlling shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and gripper position; 2) Observation states: 6-dimensional floating-point arrays reflecting the actual positions of the aforementioned joints; 3) Tactile observations (wowskin): 15-dimensional floating-point arrays; 4) Image observations: RGB video streams from base and wrist cameras, both with a resolution of 640x480; 5) Metadata: timestamps, frame indices, episode indices, global indices, and task indices. The dataset only provides a training set split (all 54 episodes).
创建时间:
2026-05-18
搜集汇总
数据集介绍

构建方式
wow-1数据集基于LeRobot框架构建,旨在为机器人操作任务提供高质量的训练数据。该数据集通过真实的so100_wowskin型机器人平台采集,共包含54个完整回合并总计28899帧数据,帧率为30FPS。数据以Parquet格式存储于分块文件中,每块包含1000帧,同时配备AV1编码的视频数据(分辨率480×640)。所有数据被统一划分为训练集,未设置验证或测试子集。
特点
wow-1数据集的一大特色在于其多模态融合特性,同时收录了机器人6维关节动作(如肩部、肘部、腕部及夹爪位置)、高维触觉信号(15维wowskin传感器数据)以及双视角视觉图像(基座与腕部摄像头)。所有动作与状态数据均以32位浮点数记录,确保高精度。时序信息通过时间戳与帧索引精确标记,便于序列建模。数据集采用Apache-2.0许可,开放使用。
使用方法
该数据集适用于模仿学习与强化学习场景,尤其是机械臂操作任务的模型训练。用户可通过LeRobot库直接加载Parquet与视频文件,利用提供的特征名称(如action、observation.state)提取行动与状态序列。由于训练集包含全部回放,研究者可直接进行端到端策略学习。建议将时序数据按回放索引分组,构建观察-动作对用于监督训练,或将触觉与视觉特征融合以提升鲁棒性。
背景与挑战
背景概述
在机器人学习领域,模仿学习作为一种高效的技能获取范式,日益受到研究者的关注。wow-1数据集诞生于这一背景下,由HuggingFace的LeRobot框架所创建,旨在为机器人操作任务的模仿学习提供标准化数据。该数据集采集于so100_wowskin机器人平台,包含54个演示片段、总计28899帧的高频运动与视觉记录,涵盖了6自由度关节状态、15维触觉传感器信号以及双目摄像头视频流。其核心研究问题在于通过多模态感知数据,推动机器人从人类示范中学习精细操作技能,尤其是在涉及接触和力反馈的密集操控任务中。作为开源社区的代表性数据集,wow-1为基于体验回放和端到端学习的机器人算法提供了宝贵的基准资源,推动了低成本、高复现性机器人研究的进展。
当前挑战
该数据集所应对的领域挑战,聚焦于机器人精细操作中的多模态融合与泛化难题。传统的视觉模仿学习常受限于缺乏触觉信息,导致无法适应物体变形或抓取力不足等复杂场景,而wow-1引入的15维触觉数据(wowskin)填补了这一空白,使模型能感知接触状态,进而提升灵巧操作的鲁棒性。在构建过程中,面临的挑战同样严峻:如何确保高帧率(30fps)下传感器数据的同步与精确记录,以及如何设计标准化的数据格式以支持LeRobot框架的无缝集成。此外,54个片段的有限规模要求数据采集策略必须高效,通过精心编排的演示任务在精简样本中最大化信息密度,同时利用AV1视频编码在保持480×640分辨率的同时控制存储消耗于200MB以内,实现了质量与效率的平衡。
常用场景
经典使用场景
在机器人学习与操控领域,wow-1数据集为模仿学习与行为克隆提供了珍贵的多模态训练资源。该数据集记录了so100_wowskin型机械臂执行单一任务时的完整轨迹,共包含54个episode、近3万帧高保真数据,涵盖6维关节角度状态、15维触觉皮肤信号以及双视角(基座与腕部)的视觉流。研究者可借助这些对齐的时序信息,训练模型学习从视觉与触觉感知到精细动作输出的映射关系,尤其适用于从示范中习得灵巧操作的经典范式。
衍生相关工作
围绕wow-1数据集,衍生工作可聚焦于多模态特征融合架构的优化、基于Transformer的序列建模,以及域自适应迁移学习策略。LeRobot生态中基于此数据集的研究,可能催生融合触觉时序编码与视觉注意力机制的新型网络结构。此外,该数据集的高频30fps动作轨迹可支撑基于扩散策略的精细轨迹生成研究,其触觉模态还可用于开发接触状态预测器,为后续的应力感知控制与安全规约算法奠定实证基础。
数据集最近研究
最新研究方向
在机器人学习领域,wow-1数据集以其独特的so100_wowskin机器人平台和触觉传感能力,正引领着模仿学习与行为克隆的研究前沿。该数据集包含54个完整轨迹、近3万帧高保真观测数据,集成了6自由度关节状态、15维触觉信号以及双视角视觉流(640×480@30fps AV1编码),为精细操作技能学习提供了多模态融合的基准资源。当前研究热点聚焦于利用此类数据训练基于Transformer的扩散策略,通过触觉-视觉联合表征实现鲁棒的动作生成,尤其在自适应抓取和柔性装配等接触密集型任务中展现出突破潜力。该数据集的开放许可与LeRobot生态的深度整合,推动了可复现的具身智能研究范式,加速了从遥操作演示到通用操作技能泛化的技术演进。
以上内容由遇见数据集搜集并总结生成



