uni_boxing_object_vfm
收藏Hugging Face2025-07-15 更新2025-07-15 收录
下载链接:
https://huggingface.co/datasets/zijian2022/uni_boxing_object_vfm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot创建,包含机器人的位姿数据和相关视频信息。数据集共有5个剧集,4023个帧,10个视频,分为1个块,每个块大小为1000。数据集的结构包括肩部、肘部、手腕和夹子的位置信息,以及来自笔记本电脑和手机的图像。数据集遵循Apache-2.0许可证。
创建时间:
2025-07-13
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
- 代码库版本: v2.1
- 机器人类型: so100_follower
数据集结构
- 总集数: 5
- 总帧数: 4023
- 总任务数: 1
- 总视频数: 10
- 总块数: 1
- 块大小: 1000
- 帧率: 30 FPS
- 分割:
- 训练集: 0:5
数据文件路径
- 数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
- 视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征描述
- 动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
- 观察状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
- 观察图像 (observation.images.laptop 和 observation.images.phone):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 是否有音频: false
- 时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
- 帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
- 集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
- 索引 (index):
- 数据类型: int64
- 形状: [1]
- 任务索引 (task_index):
- 数据类型: int64
- 形状: [1]
引用信息
- BibTeX: [More Information Needed]
搜集汇总
数据集介绍

构建方式
该数据集基于LeRobot框架构建,专为机器人技术领域设计,采用高效的数据采集与处理流程。数据集包含5个完整的情节,共计4023帧数据,以30fps的帧率记录。数据以分块形式存储,每个分块包含1000帧,采用parquet格式确保高效读写。数据采集过程中,机器人状态、动作及多视角图像信息被同步记录,为机器人学习任务提供了丰富的多模态数据源。
特点
数据集以多模态形式呈现,包含机器人关节状态、动作指令及双视角视觉数据。其中动作与状态数据均为6维浮点向量,精确记录机械臂各关节位置;视觉数据包含笔记本电脑与手机双视角的480x640分辨率视频,采用AV1编码确保高质量低带宽传输。时间戳、帧索引等元数据为时序分析提供支持,整体数据结构设计兼顾机器学习输入输出需求与存储效率。
使用方法
数据集采用标准化的分块存储结构,可通过episode_chunk与episode_index参数定位具体数据文件。训练集包含全部5个情节,数据路径遵循'data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet'的命名规范。视频数据单独存储在videos目录下,研究者可结合parquet文件中的元数据实现视频帧与机器人状态的精确对齐。该数据集特别适用于机器人模仿学习、多模态感知等研究场景。
背景与挑战
背景概述
uni_boxing_object_vfm数据集由LeRobot团队基于Apache 2.0协议构建,专注于机器人视觉与运动控制领域。该数据集采用SO100型机器人平台采集多模态数据,包含4023帧30fps的高清视频流与6自由度机械臂运动轨迹,旨在解决机器人视觉伺服控制中的动作-感知协同建模问题。通过整合双摄像头视觉输入与关节状态反馈,为机器人模仿学习与强化学习算法提供了高质量的基准测试环境。
当前挑战
该数据集面临的核心挑战在于多模态时序对齐与高维动作空间建模。从领域问题角度,需解决视觉特征提取与连续动作预测的耦合难题,尤其在动态目标跟踪场景下存在动作延迟与视觉漂移问题。构建过程中,数据采集面临传感器同步精度控制、光照条件干扰抑制等工程挑战,而6自由度机械臂的动作标注需克服运动学冗余带来的标注歧义性问题。
常用场景
经典使用场景
在机器人控制与视觉反馈领域,uni_boxing_object_vfm数据集通过记录机械臂执行任务时的多模态数据,为研究机器人动作规划与视觉感知的协同机制提供了理想实验平台。其包含的关节位置状态、双视角视频流及时间戳信息,特别适合用于验证基于深度强化学习的端到端控制算法在复杂操作任务中的表现。
衍生相关工作
基于该数据集衍生的研究已催生多项创新成果,包括结合图神经网络的跨模态动作预测框架、基于注意力机制的状态表征模型等。部分工作进一步扩展了数据规模,构建出包含力觉反馈的增强版本,为机器人技能迁移学习建立了新的基准测试体系。
数据集最近研究
最新研究方向
在机器人学领域,多模态感知与动作控制的融合正成为研究热点。uni_boxing_object_vfm数据集以其独特的视频帧与机械臂动作同步记录特性,为视觉-动作联合建模提供了高质量基准。近期研究聚焦于基于Transformer的跨模态表征学习,探索从高维视觉输入到低维动作空间的端到端映射。该数据集支持模仿学习与强化学习算法的验证,特别是在稀疏奖励场景下的策略优化。工业界正将其应用于服务机器人抓取任务,推动家庭服务机器人的实用化进程。
以上内容由遇见数据集搜集并总结生成



