uni_boxing_object_vfm

Hugging Face2025-07-15 更新2025-07-15 收录

下载链接：

https://huggingface.co/datasets/zijian2022/uni_boxing_object_vfm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，包含机器人的位姿数据和相关视频信息。数据集共有5个剧集，4023个帧，10个视频，分为1个块，每个块大小为1000。数据集的结构包括肩部、肘部、手腕和夹子的位置信息，以及来自笔记本电脑和手机的图像。数据集遵循Apache-2.0许可证。

创建时间：

2025-07-13

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
代码库版本: v2.1
机器人类型: so100_follower

数据集结构

总集数: 5
总帧数: 4023
总任务数: 1
总视频数: 10
总块数: 1
块大小: 1000
帧率: 30 FPS
分割:
- 训练集: 0:5

数据文件路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观察状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观察图像 (observation.images.laptop 和 observation.images.phone):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30
  - 通道数: 3
  - 是否有音频: false
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用信息

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

该数据集基于LeRobot框架构建，专为机器人技术领域设计，采用高效的数据采集与处理流程。数据集包含5个完整的情节，共计4023帧数据，以30fps的帧率记录。数据以分块形式存储，每个分块包含1000帧，采用parquet格式确保高效读写。数据采集过程中，机器人状态、动作及多视角图像信息被同步记录，为机器人学习任务提供了丰富的多模态数据源。

特点

数据集以多模态形式呈现，包含机器人关节状态、动作指令及双视角视觉数据。其中动作与状态数据均为6维浮点向量，精确记录机械臂各关节位置；视觉数据包含笔记本电脑与手机双视角的480x640分辨率视频，采用AV1编码确保高质量低带宽传输。时间戳、帧索引等元数据为时序分析提供支持，整体数据结构设计兼顾机器学习输入输出需求与存储效率。

使用方法

数据集采用标准化的分块存储结构，可通过episode_chunk与episode_index参数定位具体数据文件。训练集包含全部5个情节，数据路径遵循'data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet'的命名规范。视频数据单独存储在videos目录下，研究者可结合parquet文件中的元数据实现视频帧与机器人状态的精确对齐。该数据集特别适用于机器人模仿学习、多模态感知等研究场景。

背景与挑战

背景概述

uni_boxing_object_vfm数据集由LeRobot团队基于Apache 2.0协议构建，专注于机器人视觉与运动控制领域。该数据集采用SO100型机器人平台采集多模态数据，包含4023帧30fps的高清视频流与6自由度机械臂运动轨迹，旨在解决机器人视觉伺服控制中的动作-感知协同建模问题。通过整合双摄像头视觉输入与关节状态反馈，为机器人模仿学习与强化学习算法提供了高质量的基准测试环境。

当前挑战

该数据集面临的核心挑战在于多模态时序对齐与高维动作空间建模。从领域问题角度，需解决视觉特征提取与连续动作预测的耦合难题，尤其在动态目标跟踪场景下存在动作延迟与视觉漂移问题。构建过程中，数据采集面临传感器同步精度控制、光照条件干扰抑制等工程挑战，而6自由度机械臂的动作标注需克服运动学冗余带来的标注歧义性问题。

常用场景

经典使用场景

在机器人控制与视觉反馈领域，uni_boxing_object_vfm数据集通过记录机械臂执行任务时的多模态数据，为研究机器人动作规划与视觉感知的协同机制提供了理想实验平台。其包含的关节位置状态、双视角视频流及时间戳信息，特别适合用于验证基于深度强化学习的端到端控制算法在复杂操作任务中的表现。

衍生相关工作

基于该数据集衍生的研究已催生多项创新成果，包括结合图神经网络的跨模态动作预测框架、基于注意力机制的状态表征模型等。部分工作进一步扩展了数据规模，构建出包含力觉反馈的增强版本，为机器人技能迁移学习建立了新的基准测试体系。

数据集最近研究