banana_top_right

Hugging Face2025-11-12 更新2025-11-13 收录

下载链接：

https://huggingface.co/datasets/qownscks/banana_top_right

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是与机器人学相关的，使用LeRobot创建的。它包含了10个剧集，5125个帧，20个视频和1个块。数据集的结构包括动作、观测状态、上方图像观测、手腕图像观测等特征，以及时间戳、帧索引等元数据。数据集遵循Apache-2.0许可。

创建时间：

2025-11-11

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集结构

数据规模

总情节数: 10
总帧数: 5125
总任务数: 1
总视频数: 20
总块数: 1
块大小: 1000
帧率: 30 FPS

数据划分

训练集: 0:10

数据格式

数据文件: parquet格式
数据路径模式: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径模式: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征结构

动作特征

数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

上方摄像头

数据类型: 视频
图像尺寸: 480×640×3
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 通道数: 3
- 无音频

腕部摄像头

数据类型: 视频
图像尺寸: 480×640×3
视频信息:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 通道数: 3
- 无音频

索引特征

时间戳: float32, 形状[1]
帧索引: int64, 形状[1]
情节索引: int64, 形状[1]
索引: int64, 形状[1]
任务索引: int64, 形状[1]

技术信息

代码库版本: v2.1
机器人类型: so101_follower

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据采集的精确性对模型训练至关重要。banana_top_right数据集通过LeRobot平台构建，采用so101_follower型机器人执行单一任务，共采集10个完整交互片段，总计5125帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，帧率为30fps，确保了时序连贯性。机器人动作与状态观测均以6维浮点向量记录，涵盖肩部、肘部、腕部及夹爪的关节位置信息，构建过程注重机械臂运动轨迹的完整复现。

特点

该数据集在机器人感知与控制研究中展现出多模态特性。其核心特征包含双视角视觉数据：上方固定视角与腕部视角均提供480x640分辨率的RGB视频流，编码为AV1格式以平衡质量与存储效率。动作空间与观测状态采用同构的6自由度浮点数组，实现了控制指令与实体状态的对称映射。元数据层面，通过时间戳、帧索引与任务索引构建了精细的时序关联体系，为模仿学习与强化学习算法提供了结构化的时空上下文。

使用方法

针对机器人行为克隆研究，该数据集支持端到端的训练流程。研究者可通过解析Parquet文件直接获取关节位置指令与对应观测状态，双路视频流可作为视觉编码器的输入源。数据划分明确将全部10个片段归于训练集，使用时需依据chunk编号与episode索引路径规则加载对应数据块。实践建议利用帧索引实现跨模态对齐，动作向量可直接驱动仿真环境，而状态观测能用于构建动力学模型验证，形成完整的闭环验证体系。

背景与挑战

背景概述

机器人操作任务数据集作为强化学习研究的重要载体，近年来在推动智能体与环境交互能力方面展现出关键价值。banana_top_right数据集由HuggingFace的LeRobot项目团队构建，专注于多模态机器人控制领域，通过集成关节状态观测与双视角视觉输入，为机械臂精细操作任务提供数据支撑。该数据集采用Apache 2.0开源协议，包含10个完整任务片段与5125帧时序数据，其六维动作空间设计与30Hz同步采样频率，显著提升了模仿学习与策略迁移研究的实验效率。

当前挑战

机器人操作数据集构建面临动作空间维度灾难与多传感器时序对齐的双重考验。在领域问题层面，需解决从异构观测数据中提取有效特征以实现精准动作映射的难题，特别是视觉-运动协同建模中的表征学习瓶颈。数据构建过程中，六自由度机械臂的连续控制指令生成需要保持物理约束一致性，而双路高清视频流与关节状态数据的毫秒级同步，对数据采集系统的实时性与存储架构提出严峻挑战。

常用场景

经典使用场景

在机器人操作任务研究中，banana_top_right数据集通过记录机械臂关节位置与多视角视觉观测数据，为模仿学习算法提供了标准化的训练环境。该数据集捕捉了机械臂执行特定任务时的连续动作序列与状态变化，尤其适用于端到端策略学习模型的开发。其多模态特征融合机制使得研究者能够探索视觉感知与运动控制的协同优化问题，为机器人自主操作系统的构建奠定了数据基础。

实际应用

在工业自动化场景中，该数据集支撑了智能分拣系统的开发与优化。基于其记录的机械臂抓取轨迹数据，工程师能够训练出适应不同物体位姿的抓取策略。多视角视觉模块的引入使得系统具备动态环境感知能力，可应用于物流仓储的货物分拣、生产线物料搬运等实际场景，显著提升了工业机器人的作业柔性与操作精度。

衍生相关工作

以该数据集为基础衍生了系列机器人学习领域的创新研究。LeRobot框架通过扩展数据采集协议，推动了跨任务迁移学习方法的演进。部分研究利用其多模态特性开发了视觉-动作耦合的预测模型，另有工作基于时序动作序列提出了分层强化学习架构。这些成果共同促进了从示教数据到自主决策的技术转化，形成了机器人技能学习的完整方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集