so101_pick_sushi_from_shinkansen_put_on_bowl

Hugging Face2025-12-01 更新2025-12-02 收录

下载链接：

https://huggingface.co/datasets/k1000dai/so101_pick_sushi_from_shinkansen_put_on_bowl

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人任务的数据集，包含100个剧集，总共36701帧，专注于单个任务。数据集提供了机器人的动作、状态以及从手腕和顶部视角拍摄的图像。所有数据以Parquet文件格式存储，视频文件格式为MP4。

创建时间：

2025-11-29

原始信息汇总

数据集概述

基本信息

数据集名称: so101_pick_sushi_from_shinkansen_put_on_bowl
任务类别: 机器人学
标签: LeRobot
许可证: Apache-2.0
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模与结构

总情节数: 100
总帧数: 36701
总任务数: 1
数据块大小: 1000
帧率: 30 FPS
数据文件总大小: 100 MB
视频文件总大小: 200 MB
数据格式: Parquet
视频格式: MP4 (编码: AV1, 像素格式: yuv420p)
数据划分: 训练集 (0:100)

数据特征

数据包含以下特征：

动作

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
帧率: 30 FPS

观测状态

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
帧率: 30 FPS

观测图像（腕部摄像头）

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

观测图像（顶部摄像头）

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: 否

元数据

时间戳: float32, 形状 [1], 帧率 30 FPS
帧索引: int64, 形状 [1], 帧率 30 FPS
情节索引: int64, 形状 [1], 帧率 30 FPS
索引: int64, 形状 [1], 帧率 30 FPS
任务索引: int64, 形状 [1], 帧率 30 FPS

文件路径模式

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

版本信息

代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: 未提供
论文: 未提供
BibTeX 引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于实际物理系统的交互记录。本数据集通过LeRobot平台，利用so101_follower型机器人执行“从新干线上取寿司放入碗中”这一特定任务，系统采集了100个完整交互片段，总计36701帧数据。数据以30帧每秒的频率同步记录机器人的关节位置状态、执行动作指令，以及顶部和腕部摄像头捕捉的视觉信息，并以分块Parquet格式高效存储，确保了数据的时序一致性与完整性。

特点

该数据集在机器人操作数据中展现出多维融合的显著特点，不仅包含六自由度关节的位置状态与动作向量，还整合了双视角的高清视频流，提供了丰富的环境感知信息。数据以30Hz的采样率保证了动作与观测的同步性，且所有特征均标注了精确的时间戳与帧索引，便于时序建模分析。其结构化的存储方式与清晰的元数据描述，为机器人模仿学习与强化学习研究提供了高质量、可复现的实验基础。

使用方法

研究人员可通过加载Parquet数据文件，直接访问机器人的状态观测、动作序列及同步视频流，用于训练行为克隆或离线强化学习模型。数据集已预分为训练集，涵盖全部100个交互片段，用户可依据帧索引或时间戳提取特定片段进行分析。结合LeRobot工具链，能够便捷地进行数据可视化、模型训练与策略评估，推动机器人精细操作任务的研究进展。

背景与挑战

背景概述

在机器人操作领域，模仿学习已成为实现复杂任务自主执行的关键范式。so101_pick_sushi_from_shinkansen_put_on_bowl数据集由LeRobot项目团队构建，旨在为机器人抓取与放置任务提供高质量的示范数据。该数据集聚焦于从模拟新干线场景中拾取寿司并放置于碗内的精细操作，通过记录六自由度机械臂的关节位置、夹爪状态以及多视角视觉信息，为机器人策略学习与泛化能力研究奠定了数据基础。其创建体现了当前机器人学对真实世界交互数据日益增长的需求，推动了从仿真到实际应用的过渡研究。

当前挑战

该数据集致力于解决机器人模仿学习中动作精确性与环境适应性等核心挑战。在领域层面，如何从高维视觉与状态观测中提取有效特征以生成鲁棒的控制策略，以及如何处理动态场景下的物体抓取与放置精度问题，构成了主要研究难点。在构建过程中，数据采集面临多传感器同步、大规模视频数据的高效压缩与存储，以及确保示范动作的一致性与多样性等技术挑战，这些因素共同影响了数据集的规模与质量，进而制约了后续模型的训练效果与泛化性能。

常用场景

经典使用场景

在机器人操作领域，so101_pick_sushi_from_shinkansen_put_on_bowl数据集为模仿学习与强化学习算法提供了宝贵的实验平台。该数据集记录了so101_follower型机器人在模拟新干线场景下执行寿司抓取并放置于碗中的完整动作序列，包含多视角视觉观测与关节状态数据。研究者可利用这些高精度时序数据，训练机器人学习复杂环境中的灵巧操作策略，尤其适用于动态物体抓取与放置任务的算法验证与性能评估。

衍生相关工作

围绕该数据集，已衍生出多项机器人学习领域的经典研究。例如，基于LeRobot框架的模仿学习算法改进工作，利用其多视角视频与状态数据提升了策略的视觉泛化能力；同时，该数据集也支撑了跨任务迁移学习的研究，学者通过分析其动作序列特征，开发了适用于多种抓取任务的通用表示学习方法。这些工作共同推动了机器人操作数据集的标准化与算法评估体系的完善。

数据集最近研究