so101_wn
收藏Hugging Face2025-12-06 更新2025-12-07 收录
下载链接:
https://huggingface.co/datasets/0xNOY/so101_wn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用[LeRobot](https://github.com/huggingface/lerobot)创建,与机器人技术相关。数据集包含动作状态、观察状态、顶部和腕部摄像头的图像、叙述和时间戳等多种特征。数据集由133个片段、103433帧和13个任务组成,帧率为30 fps。数据存储在parquet文件中,并包含视频文件。
This dataset is constructed using [LeRobot](https://github.com/huggingface/lerobot) and is related to robotics. It includes multiple types of features such as action states, observation states, images captured by the top and wrist cameras, narratives, and timestamps. The dataset consists of 133 segments, 103,433 frames, and 13 tasks, with a frame rate of 30 fps. The data is stored in Parquet files and also contains video files.
创建时间:
2025-12-04
原始信息汇总
数据集概述
基本信息
- 数据集名称: so101_wn
- 创建工具: 使用 LeRobot (https://github.com/huggingface/lerobot) 创建。
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
数据集规模与结构
- 总任务数: 13
- 总情节数: 133
- 总帧数: 103433
- 数据文件大小: 100 MB
- 视频文件大小: 200 MB
- 帧率: 30 FPS
- 数据块大小: 1000
- 数据分割: 全部数据用于训练 (
train: "0:133")
数据文件路径
- 数据路径格式:
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频路径格式:
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据特征
数据集包含以下特征:
动作
- 数据类型:
float32 - 形状:
[6] - 描述: 包含6个关节的位置信息:
shoulder_pan.posshoulder_lift.poselbow_flex.poswrist_flex.poswrist_roll.posgripper.pos
观测状态
- 数据类型:
float32 - 形状:
[6] - 描述: 包含6个关节的位置信息(与动作特征相同)。
观测图像(顶部摄像头)
- 数据类型:
video - 形状:
[480, 640, 3](高度,宽度,通道) - 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 通道: 3
- 无音频
观测图像(腕部摄像头)
- 数据类型:
video - 形状:
[480, 640, 3](高度,宽度,通道) - 视频信息: 与顶部摄像头相同。
文本与索引特征
- 当前叙述: 数据类型
string,形状[1]。 - 先前叙述: 数据类型
string,形状[1]。 - 时间戳: 数据类型
float32,形状[1]。 - 帧索引: 数据类型
int64,形状[1]。 - 情节索引: 数据类型
int64,形状[1]。 - 索引: 数据类型
int64,形状[1]。 - 任务索引: 数据类型
int64,形状[1]。
其他信息
- 代码库版本: v3.0
- 机器人类型: so101_follower
- 主页: 信息缺失
- 论文: 信息缺失
- 引用: 信息缺失
搜集汇总
数据集介绍

构建方式
在机器人学习领域,高质量的数据集对于推动模仿学习与强化学习算法的发展至关重要。so101_wn数据集依托LeRobot开源框架构建而成,其采集过程涉及一台so101_follower型机器人执行13项具体任务。数据以序列化形式记录,共包含133个完整交互片段,总计103,433帧观测数据,并以分块存储的Parquet格式高效组织,确保了大规模机器人状态与动作轨迹的结构化保存。
特点
该数据集的核心特征在于其多模态与细粒度的数据表征。它不仅提供了机器人六维关节位置的动作与状态向量,还同步收录了来自顶部与腕部摄像头的双视角视觉流,每帧图像分辨率达640x480并以30帧率编码。此外,数据集创新性地融入了时序叙事文本,通过当前与历史描述字段为每一决策步骤赋予语义上下文,这种状态、视觉与语言信号的深度融合,为端到端机器人策略学习提供了丰富的监督信息。
使用方法
为便于研究者高效利用,数据集已预先划分为训练集,可直接通过HuggingFace数据集库加载。数据以块为单位存储,用户可依据chunk索引与文件索引路径灵活读取。典型的使用流程包括加载Parquet文件以获取机器人状态、动作及叙事文本,并同步解析关联的MP4视频文件进行视觉观测。这种设计支持大规模离线强化学习训练、行为克隆模型验证,以及多模态表征学习的实验开展。
背景与挑战
背景概述
在机器人学习领域,高质量、大规模的真实世界交互数据集对于推动模仿学习与强化学习算法的进步至关重要。so101_wn数据集由HuggingFace的LeRobot项目创建,专注于机器人操作任务,旨在通过记录六自由度机械臂(so101_follower)在多种任务中的状态观测、动作执行及视觉信息,为机器人策略学习提供丰富的多模态数据。该数据集包含133个完整交互片段,涵盖13种不同任务,融合了关节状态、顶部与腕部摄像头视频流以及任务叙述文本,其结构化设计支持端到端策略训练,有望促进机器人泛化能力与复杂技能获取的研究。
当前挑战
该数据集致力于解决机器人模仿学习中的多模态感知与动作生成挑战,即如何从异构的视觉、状态与文本叙述数据中学习鲁棒且可泛化的控制策略。构建过程中的挑战包括:在真实物理环境中采集高维连续动作与同步多视角视频数据时,需确保时序对齐与传感器校准的精确性;处理大规模视频数据(如200MB视频文件)带来的存储与计算负担;以及设计统一的数据结构以高效组织不同模态信息,便于后续机器学习模型的训练与评估。
常用场景
经典使用场景
在机器人学习领域,so101_wn数据集为模仿学习与视觉运动控制研究提供了关键支持。该数据集收录了133个任务执行片段,包含六自由度机械臂的关节位置状态、顶部与腕部摄像头视频流以及任务叙述文本,为算法训练提供了多模态交互数据。其经典应用场景在于训练端到端的机器人策略模型,使机器人能够通过观察人类演示或环境反馈,学习执行如抓取、放置等精细操作任务,从而推动机器人自主执行复杂动作的能力发展。
衍生相关工作
围绕so101_wn数据集,已衍生出一系列机器人学习领域的经典研究工作。这些工作主要集中在视觉运动策略学习、多模态表示对齐以及离线强化学习等方面。例如,利用该数据集进行的行为克隆方法提升了策略的样本效率;结合视频与状态信息的模型实现了更精准的动作预测;此外,基于数据集的离线学习框架也为安全关键的机器人应用提供了新的训练范式,持续推动着机器人智能算法的前沿探索。
数据集最近研究
最新研究方向
在机器人学习领域,多模态数据融合正成为推动具身智能发展的关键驱动力。so101_wn数据集以其丰富的关节状态、视觉观测与自然语言叙述的同步记录,为研究视觉-语言-动作的联合建模提供了宝贵资源。当前前沿探索集中于利用此类数据集训练端到端的强化学习或模仿学习模型,旨在实现机器人对复杂任务指令的理解与自主执行。结合大规模预训练技术,研究者致力于提升模型在少样本场景下的泛化能力,以应对真实世界中的动态环境与多样化任务需求。
以上内容由遇见数据集搜集并总结生成



