dataset-shisa-new

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/Rinsei/dataset-shisa-new

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个与LeRobot项目相关的机器人数据集，包含10个epsisodes，共计5979帧。数据集的结构包括机器人的动作、状态、三个方向（前、右、左）的图像以及时间戳等信息。数据集的文件格式为.parquet，适用于机器学习和机器人研究。

创建时间：

2025-10-27

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总回合数: 10
总帧数: 5979
帧率: 30 FPS
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
代码库版本: v3.0
机器人类型: bi_so101_follower
数据分割: 训练集 (0:10)

数据格式

数据文件路径

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征结构

动作特征

数据类型: float32
维度: 12
关节位置:
- 左肩平移位置
- 左肩抬升位置
- 左肘弯曲位置
- 左腕弯曲位置
- 左腕旋转位置
- 左夹爪位置
- 右肩平移位置
- 右肩抬升位置
- 右肘弯曲位置
- 右腕弯曲位置
- 右腕旋转位置
- 右夹爪位置

观测状态

数据类型: float32
维度: 12
关节位置: 与动作特征相同

图像观测

前视摄像头:

数据类型: 视频
分辨率: 480×640×3
编码格式: AV1
像素格式: yuv420p
非深度图

右侧摄像头:

数据类型: 视频
分辨率: 480×640×3
编码格式: AV1
像素格式: yuv420p
非深度图

左侧摄像头:

数据类型: 视频
分辨率: 480×640×3
编码格式: AV1
像素格式: yuv420p
非深度图

元数据

时间戳: float32[1]
帧索引: int64[1]
回合索引: int64[1]
索引: int64[1]
任务索引: int64[1]

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，dataset-shisa-new数据集通过LeRobot平台系统性地采集了双机械臂系统的操作数据。该数据集包含10个完整操作序列，总计5979帧数据，以30帧/秒的采样频率记录。数据采用分块存储架构，将动作轨迹与多视角视觉信息分别封装于parquet格式文件与MP4视频流中，通过标准化数据管道确保时空对齐。

使用方法

研究者可通过解析parquet文件中的动作序列与状态观测数据，结合对应视频文件构建端到端训练样本。数据集采用Apache 2.0开源协议，支持直接加载至LeRobot框架进行策略学习。建议按照标准数据拆分方案使用全部10个训练序列，利用特征字典中的维度说明解析12维动作空间，并通过视频路径映射实现视觉运动对齐建模。

背景与挑战

背景概述

机器人学习领域长期致力于开发能够适应复杂环境的智能体，dataset-shisa-new作为基于LeRobot框架构建的双臂机器人数据集应运而生。该数据集聚焦于双臂协调操作的核心研究问题，通过记录机械臂关节位置与多视角视觉数据，为模仿学习与强化学习算法提供真实世界交互轨迹。其采用Apache 2.0开源协议，包含5979帧30fps的高清视频流与12维动作空间数据，标志着机器人技能迁移研究进入数据驱动的新阶段。

当前挑战

在机器人操作任务中，双臂协调控制面临高维动作空间建模与多模态感知融合的双重挑战。数据集构建过程中需克服多传感器时序同步的技术瓶颈，确保关节编码器数据与三路视觉流毫秒级对齐。同时，大规模视频数据的实时采集与存储衍生出数据压缩与传输效率问题，AV1编解码器的应用正是为平衡数据质量与存储成本所做的技术折衷。

常用场景

经典使用场景

在机器人学习领域，dataset-shisa-new数据集以其双机械臂操作系统的多模态数据特性，成为模仿学习算法的经典实验平台。该数据集通过记录机械臂关节位置与多视角视觉信息，为研究者提供了完整的动作-状态映射关系，特别适用于端到端策略学习的研究场景。其结构化数据格式与高帧率视频流，使得模型能够精准捕捉从感知到执行的动态过程。

解决学术问题

该数据集有效解决了机器人模仿学习中动作表征与视觉感知的协同建模难题。通过提供精确的十二自由度关节控制信号与同步多视角视觉观测，研究者能够深入探索基于视觉的逆动力学建模、多传感器融合策略等核心问题。其丰富的时空标注数据为验证跨模态表示学习的理论框架提供了重要支撑，推动了具身智能领域从仿真到实物的知识迁移研究。

实际应用

在工业自动化场景中，该数据集支撑的双臂协作系统可应用于精密装配、物料分拣等复杂任务。基于数据驱动的控制策略能够适应非结构化环境，通过前端、左右视角的视觉反馈实现动态目标追踪与避障。其标准化数据接口为制造业柔性生产线的快速部署提供了技术基础，显著降低了机器人编程调试的时间成本。

数据集最近研究