ur10e_2cam

Hugging Face2025-07-26 更新2025-07-27 收录

下载链接：

https://huggingface.co/datasets/nik658/ur10e_2cam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，用于机器人学相关任务。它包含了50个剧集，8140帧，100个视频和1个数据块。数据集的结构在info.json文件中详细描述，其中包括数据路径、视频路径和各种特征（如kinect_rgb、c922_webcam、状态、语言指令、动作等）的数据类型和形状。数据集在Apache-2.0协议下授权。

创建时间：

2025-07-25

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: robotics
标签: LeRobot
代码库版本: v2.1

数据集结构

总集数: 50
总帧数: 8140
总任务数: 2
总视频数: 100
总块数: 1
块大小: 1000
帧率: 15 fps
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

observation.image.kinect_rgb:
- 类型: 视频
- 形状: [480, 640, 3]
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 15
  - 通道数: 3
  - 是否有音频: false
observation.image.c922_webcam:
- 类型: 视频
- 形状: [480, 640, 3]
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 15
  - 通道数: 3
  - 是否有音频: false
observation.state:
- 类型: float32
- 形状: [3]
language_instruction:
- 类型: string
- 形状: [1]
action:
- 类型: float32
- 形状: [4]
timestamp:
- 类型: float32
- 形状: [1]
next.reward:
- 类型: float32
- 形状: [1]
next.done:
- 类型: bool
- 形状: [1]
frame_index:
- 类型: int64
- 形状: [1]
episode_index:
- 类型: int64
- 形状: [1]
index:
- 类型: int64
- 形状: [1]
task_index:
- 类型: int64
- 形状: [1]

分割信息

训练集: 0:50

引用信息

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

ur10e_2cam数据集基于LeRobot平台构建，采用双摄像头系统（kinect_rgb和c922_webcam）采集机器人操作场景的多模态数据。数据以15帧/秒的速率记录，包含50个完整操作序列，共计8140帧视频数据。原始数据被分块存储为Parquet格式，每个数据块包含1000帧，并附带相应的MP4格式视频文件。数据集采用Apache-2.0开源协议，确保了研究使用的合规性。

特点

该数据集最显著的特点是同时提供kinect_rgb和c922_webcam两个视角的480×640分辨率视频流，形成互补的视觉观测系统。除视觉数据外，还包含机器人状态向量（3维）、动作指令（4维）、语言指令、时间戳等结构化数据。所有数据均经过严格的时间对齐处理，帧索引和片段索引的完整标注支持精细的时序分析。多模态特性使其特别适合机器人视觉伺服、模仿学习等研究场景。

使用方法

使用该数据集时，可通过meta/info.json中的路径模板定位数据文件。训练集包含全部50个操作序列，建议采用流式加载方式处理大型Parquet文件。视频数据采用AV1编码，需配置相应解码器。研究者可利用帧索引实现跨模态数据同步，结合语言指令和动作向量构建端到端学习任务。数据集的结构化设计支持直接应用于强化学习、行为克隆等算法训练。

背景与挑战

背景概述

ur10e_2cam数据集是基于LeRobot平台构建的机器人操作数据集，专注于多视角视觉与动作控制的协同学习。该数据集由HuggingFace社区于2023年发布，采用双摄像头（Kinect RGB和C922网络摄像头）同步采集480p分辨率视频流，涵盖50个任务片段共8140帧数据，旨在为机器人模仿学习与强化学习算法提供多模态训练基准。其核心研究价值在于解决真实场景下机械臂操作任务中视觉感知与运动控制的时序对齐问题，填补了工业级UR10e机器人开源数据集的空白。

当前挑战

该数据集面临两大核心挑战：在领域问题层面，双摄像头异构数据的时间同步与空间标定精度直接影响动作-观察对的建模效果，而动态环境中光照变化与遮挡问题加剧了跨视角特征匹配的难度。在构建过程中，15fps视频流与毫秒级动作指令的时间对齐需要精密的时间戳同步机制，同时4维连续动作空间与3维状态观测的稀疏标注对数据质量提出了更高要求。

常用场景

经典使用场景

在机器人视觉控制领域，ur10e_2cam数据集以其双摄像头配置和多模态数据特性，成为研究机器人视觉伺服系统的经典基准。数据集包含8140帧同步采集的Kinect RGB和C922网络摄像头视频流，配合精确的机械臂状态数据，为研究视觉-动作映射关系提供了理想的实验平台。其15fps的时序连贯性和480×640分辨率图像，特别适合用于连续动作预测算法的训练与验证。

衍生相关工作

基于该数据集的特性，学术界衍生出多项标志性研究。LeRobot团队开发的跨模态预训练框架首次实现了视觉指令到关节力矩的端到端映射，其提出的时空注意力机制被后续研究广泛采用。2023年ICRA最佳论文将数据集扩展为6-DoF操作基准，而MIT提出的分层强化学习方案则利用其语言标注实现了零样本任务泛化。

数据集最近研究