uni_pouring_object_vfm

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/zijian2022/uni_pouring_object_vfm

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人学研究的机器人动作数据集，包含了10个剧集，共计9305帧，分为1个任务，共有20个视频文件。数据集采用Apache-2.0许可。每个剧集以Parquet格式存储，并且包含了动作、状态、视频画面、时间戳、帧索引、剧集索引等信息。

创建时间：

2025-07-11

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: robotics
标签: LeRobot
配置:
- 配置名称: default
- 数据文件: data//.parquet

数据集描述

创建工具: LeRobot
主页: [More Information Needed]
论文: [More Information Needed]

数据集结构

代码库版本: v2.1
机器人类型: so100_follower
总集数: 10
总帧数: 9305
总任务数: 1
总视频数: 20
总块数: 1
块大小: 1000
帧率: 30 fps
分割:
- 训练集: 0:10

数据路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

action:
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.state:
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
observation.images.laptop:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30 fps
  - 通道数: 3
  - 是否有音频: false
observation.images.phone:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30 fps
  - 通道数: 3
  - 是否有音频: false
timestamp:
- 数据类型: float32
- 形状: [1]
frame_index:
- 数据类型: int64
- 形状: [1]
episode_index:
- 数据类型: int64
- 形状: [1]
index:
- 数据类型: int64
- 形状: [1]
task_index:
- 数据类型: int64
- 形状: [1]

引用

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，精准的动作控制数据对于算法训练至关重要。uni_pouring_object_vfm数据集依托LeRobot开源平台构建，通过SO100型机器人执行倾倒任务时采集多模态数据。该数据集包含10个完整操作序列，共计9305帧数据，以30fps的采样频率记录机械臂关节位置、夹持器状态及双视角视觉信息，所有数据采用Parquet格式分块存储，确保高效读取与处理。

特点

该数据集最显著的特点是实现了动作指令与多源感知数据的时空对齐。六维关节角度数据与双路高清视频流（480×640分辨率）严格同步，每帧数据均附带精确的时间戳和任务索引。特别值得注意的是，视觉数据采用AV1编码压缩，在保持YUV420p色彩空间的同时显著减小存储需求，为机器人模仿学习研究提供了高性价比的多模态基准。

使用方法

研究者可通过解析Parquet文件中的结构化字段快速获取训练所需数据。动作指令存储于'action'特征组，包含肩部平移/旋转、肘部弯曲等6个自由度参数；视觉数据分别存储在'laptop'和'phone'两个视角下，配合'observation.state'中的实时关节反馈，可构建端到端的模仿学习模型。数据集默认按episode索引分块，建议使用HuggingFace数据集库的流式加载功能处理大规模视频数据。

背景与挑战

背景概述

uni_pouring_object_vfm数据集由LeRobot团队开发，专注于机器人操作任务中的视觉与运动控制研究。该数据集记录了机械臂执行倾倒物体任务时的多模态数据，包括关节位置、视觉观察和时间戳等信息。数据集采用Apache-2.0许可协议，包含10个完整任务片段，共计9305帧30fps的视频数据，主要面向机器人学习领域的研究人员。通过提供真实世界的操作数据，该数据集为机器人模仿学习、强化学习等算法开发提供了重要基准。

当前挑战

该数据集旨在解决机器人操作任务中视觉-运动协同控制的挑战，特别是复杂物体交互时的状态表征与动作生成问题。构建过程中面临多传感器数据同步、高维度连续动作空间建模等工程难题。数据采集涉及机械臂关节状态与多视角视觉数据的精确对齐，这对硬件同步精度和数据处理流程提出了严格要求。此外，真实环境下物体物理特性的不确定性也为任务执行数据的可靠性带来了挑战。

常用场景

经典使用场景

在机器人操作领域，uni_pouring_object_vfm数据集为研究多视角视觉反馈下的物体倾倒任务提供了标准化实验平台。该数据集通过记录机械臂关节位置、视觉观测和时间戳等多元数据，支持研究者构建端到端的模仿学习或强化学习模型，特别适用于研究视觉-动作映射关系在复杂操作任务中的表现。

衍生相关工作

基于该数据集衍生的研究已推动视觉运动表示学习领域的进展，包括开发新型时空注意力机制的视频动作预测模型。部分工作利用其多视角特性探索了跨模态对比学习方法，另有研究通过迁移学习将该数据集的表征能力扩展到其他操作任务，如物体抓取和装配。

数据集最近研究