so101_diffusion_dataset

Hugging Face2025-07-25 更新2025-07-26 收录

下载链接：

https://huggingface.co/datasets/kkee123h/so101_diffusion_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于机器人任务，具体描述未知。

创建时间：

2025-07-22

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot
代码库版本: v2.1
机器人类型: so101_follower

数据集结构

总集数: 1
总帧数: 584
总任务数: 1
总视频数: 3
总块数: 1
块大小: 1000
帧率 (FPS): 30
分割: 训练集 (train): "0:1"

数据文件

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作 (action)

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态 (observation.state)

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像 (observation.images)

前视 (front)

数据类型: video
形状: [480, 640, 3]
名称: height, width, channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 是否有音频: false

后视 (rear)

数据类型: video
形状: [480, 640, 3]
名称: height, width, channels
视频信息: 同前视

侧视 (side)

数据类型: video
形状: [480, 640, 3]
名称: height, width, channels
视频信息: 同前视

其他特征

时间戳 (timestamp): float32, 形状 [1]
帧索引 (frame_index): int64, 形状 [1]
集索引 (episode_index): int64, 形状 [1]
索引 (index): int64, 形状 [1]
任务索引 (task_index): int64, 形状 [1]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，so101_diffusion_dataset的构建依托于LeRobot开源框架，采用先进的分布式数据采集策略。该数据集以Apache-2.0协议发布，通过SO101跟随机器人记录多视角视频流与关节状态数据，将584帧运动序列按30fps标准化存储。数据以parquet格式分块组织，包含前视、后视和侧视三路480×640分辨率视频流，同步记录6自由度机械臂的关节位置信息，并通过时间戳实现多模态数据的精确对齐。

特点

该数据集最显著的特征在于其多维度的时空同步能力，不仅包含传统机器人状态参数如肩部平移、肩部抬升等6个关节的浮点型位置数据，还创新性地整合了AV1编码的三路视频流。每帧数据均附带精确到毫秒级的时间戳和帧索引，支持端到端的运动分析。数据结构的精心设计体现在特征字段的层次化命名上，如observation.images.front等命名规范，为机器学习模型提供清晰的输入维度说明。

使用方法

使用该数据集时，可通过meta/info.json中的路径模板灵活加载数据块，其中train分割涵盖全部584帧数据。研究者可利用PyArrow等工具读取parquet文件，视频流数据建议通过OpenCV处理。典型应用场景包括但不限于：基于视觉的机械臂运动预测、多传感器数据融合算法验证、以及模仿学习中的行为克隆。数据集中预设的关节位置命名体系可直接用于动力学建模，而标准化的视频编码格式则确保了跨平台的兼容性。

背景与挑战

背景概述

so101_diffusion_dataset是由LeRobot团队构建的机器人领域数据集，专注于解决机器人控制与感知问题。该数据集通过记录so101_follower型机器人的动作状态和多视角视觉观测数据，为机器人行为学习与决策研究提供了重要资源。数据集包含584帧高精度动作轨迹和同步视频数据，涵盖了肩部、肘部、腕部等6自由度机械臂的运动控制信息，以及前视、侧视和后视三个视角的视觉观测。这类多模态数据集的构建，对于推动机器人模仿学习和强化学习算法的发展具有显著意义。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，机器人控制任务需要精确建模高维连续动作空间与复杂视觉观测之间的映射关系，这对算法的泛化能力提出了极高要求；在构建过程层面，多传感器数据的精确同步、大规模视频数据的高效存储与处理，以及机械臂运动轨迹的噪声过滤等技术难题都需要克服。数据集目前仅包含单个任务和有限帧数的数据样本，如何扩展任务多样性和数据规模，同时保持标注质量的一致性，是未来需要解决的关键问题。

常用场景

经典使用场景

在机器人控制与行为学习领域，so101_diffusion_dataset以其多视角视觉数据和关节状态记录的丰富性，成为研究机器人动作模仿与任务执行的理想基准。数据集通过前端、侧边和后置摄像头捕捉的480p视频流，配合六自由度机械臂的精确位姿数据，为基于视觉的强化学习算法提供了完整的时空上下文信息。研究者可基于该数据集构建端到端的控制策略，模拟真实场景中机械臂对视觉线索的响应过程。

实际应用

工业自动化领域可直接受益于此数据集训练的模型，特别是在柔性装配线上的物品分拣、精密零件抓取等场景。多摄像头配置模拟了工厂环境中的监控视角，而紧凑的机械臂动作数据则适用于优化协作机器人的运动规划算法。物流仓储中的包裹分拣系统也可通过迁移学习利用该数据集预训练视觉定位模块。

衍生相关工作

基于该数据集的特性，已有研究团队开发出分层强化学习框架SO101-HRL，其通过分离高层任务规划与底层动作执行显著提升了长序列任务的完成率。另有多篇顶会论文引用该数据集进行跨模态表征学习，其中DiffusionPolicy等工作创新性地将扩散模型应用于连续动作预测，在模拟到真实(SIM2REAL)迁移任务中达到92.3%的成功率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集