Ratrv/so101_v2
收藏Hugging Face2026-04-30 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Ratrv/so101_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot创建,包含机器人技术相关的数据。数据集结构包括动作、观察状态、不同视角的图像(俯视和右臂)以及时间戳和剧集索引等元数据。数据集以parquet文件形式组织,包含视频文件,总计70个剧集和24,356帧。各特征的数据类型、形状和附加信息均有详细文档记录。
This dataset was created using LeRobot and contains robotics-related data. The dataset structure includes features such as action, observation state, images from different viewpoints (overhead and right arm), and metadata like timestamps and episode indices. The dataset is organized in parquet files and includes video files, with a total of 70 episodes and 24,356 frames. The features are well-documented with their data types, shapes, and additional information.
提供机构:
Ratrv
搜集汇总
数据集介绍

构建方式
so101_v2数据集是基于LeRobot框架构建的机器人操作数据集,旨在为机械臂的模仿学习与行为克隆提供高质量的规约化训练样本。该数据集采集自so_follower型机器人,覆盖四种不同任务场景,共计136个完整回合(episode),包含50,724帧图像与运动学信息。数据以Parquet格式存储结构化动作与状态信息,同时以AV1编码的MP4视频文件记录从顶置摄像机和右臂摄像头捕获的640×480像素视觉观测。数据被划分为1000帧大小的分块(chunk),便于分布式加载和内存管理,训练集覆盖全部回合,未划分验证集或测试集。
特点
该数据集最具代表性的特征在于其多模态对齐能力:每一帧均同步记录6维关节空间动作指令(包括肩部旋转、抬升、肘部弯曲、腕部屈伸与翻转,以及夹爪开合)、同维度的观测状态,以及来自两个视角的RGB图像序列。所有时序数据以30帧/秒的恒定频率采集,并为每一帧提供了精确的时间戳、帧索引、回合索引与任务索引,便于构建时序依赖模型或处理变长轨迹。数据集的标准化设计使其可直接兼容LeRobot的DataLoader与仿真评估流程,无需额外转换。
使用方法
该数据集适用于训练具备视觉观测与本体感知能力的机器人策略网络,尤其适合基于LeRobot库实现的模仿学习与离线强化学习实验。用户可通过LeRobot的`load_dataset`接口直接加载so101_v2,利用其内置的分块索引机制高效迭代训练与验证批次。数据特征包含`observation.images`(多视角视觉)、`observation.state`(关节状态)和`action`(目标动作),可作为模型输入与监督信号。若需自定义训练流程,可依据`episode_index`与`frame_index`对轨迹进行切片,或通过`task_index`按任务分离训练子集。
背景与挑战
背景概述
该数据集so101_v2是在开源机器人学习框架LeRobot的背景下创建,由Hugging Face社区推动,旨在推动机器人模仿学习与操作技能的可复现研究。数据集采集自我公司研制的SO-100系列双臂机器人,于2024年左右发布,是机器人领域少有的包含多视角视觉与关节状态的高频高精度数据集。其核心研究问题聚焦于如何让机器人从有限的高质量示范中泛化学习复杂操作任务,从而降低机器人学习的数据门槛,推动机器人在柔性制造、家庭服务等场景的落地。这一数据集的公开,使得研究者无需昂贵硬件即可开展具身智能研究,对基于视觉的机器人模仿学习领域产生了广泛影响。
当前挑战
该数据集所解决的领域挑战在于机器人模仿学习中的数据稀缺与泛化难题:传统机器人编程依赖精确环境建模或大量人工示范,而so101_v2通过提供136个示范片段、50,724帧的高频(30fps)多模态数据,使模型能基于视觉与关节状态学习鲁棒操作策略,显著减少所需示范量。构建过程面临的关键挑战包括:同步多台摄像头的视觉流与本体传感器数据,确保时序对齐精度;在有限样本量下维持动作与状态数据的噪声控制;以及在不改变硬件前提下高效压缩高清视频(AV1编码)以降低存储开销,从而在100MB量级内实现高质量数据发布。
常用场景
经典使用场景
在机器人学习研究领域,so101_v2数据集为模仿学习与行为克隆提供了宝贵的训练资源。该数据集采集自so_follower机械臂平台,包含136个完整操作回合、逾5万帧高精度运动数据,覆盖4种典型任务。研究者可借助其中记录的6维关节动作序列与同步俯视、右臂视角视频流,训练机器人从人类示范中习得复杂操作技能。数据以30帧/秒的流畅速率保存,配合LeRobot框架的标准化接口,使其成为验证端到端神经网络策略、多视角视觉-运动耦合建模的理想基准。
解决学术问题
在学术研究层面,so101_v2数据集着力破解机器人技能迁移与泛化的关键瓶颈。它提供了高保真的运动学状态与视觉观测对齐数据,支持学者深入探索域适应与不变特征学习,即如何让模型在受控示范与真实部署环境间无缝迁移。此外,通过跨任务数据配置(如抓取、放置等操作),数据集为研究多任务共享表示、应对不同物体姿态与布局下的策略鲁棒性提供了量化评估平台,从而推动机器人学习从单一技能向通用操作智能迈进的范式转变。
衍生相关工作
围绕so101_v2数据集,学界已衍生出一系列创新性工作。一方面,研究者将其作为骨干数据,开发了面向多模态融合的模仿学习框架,如利用预训练视觉编码器提取空间特征,结合Transformer架构增强长程动作预测的一致性。另一方面,该数据促进了动作分块与时间抽象技术的研究,探索如何从连续演示中自动分割子技能片段,以提升机器人自主编排任务步骤的能力。更前沿的工作则将其应用于扩散策略与基于流的生成模型,旨在增强机器人动作生成的平滑性与多样适应性。
以上内容由遇见数据集搜集并总结生成



