ur10e_2cam
收藏Hugging Face2025-07-26 更新2025-07-27 收录
下载链接:
https://huggingface.co/datasets/nik658/ur10e_2cam
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用LeRobot创建,用于机器人学相关任务。它包含了50个剧集,8140帧,100个视频和1个数据块。数据集的结构在info.json文件中详细描述,其中包括数据路径、视频路径和各种特征(如kinect_rgb、c922_webcam、状态、语言指令、动作等)的数据类型和形状。数据集在Apache-2.0协议下授权。
创建时间:
2025-07-25
原始信息汇总
数据集概述
基本信息
- 许可证: apache-2.0
- 任务类别: robotics
- 标签: LeRobot
- 代码库版本: v2.1
数据集结构
- 总集数: 50
- 总帧数: 8140
- 总任务数: 2
- 总视频数: 100
- 总块数: 1
- 块大小: 1000
- 帧率: 15 fps
- 数据路径:
data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet - 视频路径:
videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征描述
-
observation.image.kinect_rgb:
- 类型: 视频
- 形状: [480, 640, 3]
- 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 15
- 通道数: 3
- 是否有音频: false
-
observation.image.c922_webcam:
- 类型: 视频
- 形状: [480, 640, 3]
- 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 15
- 通道数: 3
- 是否有音频: false
-
observation.state:
- 类型: float32
- 形状: [3]
-
language_instruction:
- 类型: string
- 形状: [1]
-
action:
- 类型: float32
- 形状: [4]
-
timestamp:
- 类型: float32
- 形状: [1]
-
next.reward:
- 类型: float32
- 形状: [1]
-
next.done:
- 类型: bool
- 形状: [1]
-
frame_index:
- 类型: int64
- 形状: [1]
-
episode_index:
- 类型: int64
- 形状: [1]
-
index:
- 类型: int64
- 形状: [1]
-
task_index:
- 类型: int64
- 形状: [1]
分割信息
- 训练集: 0:50
引用信息
- BibTeX: [More Information Needed]
搜集汇总
数据集介绍

构建方式
ur10e_2cam数据集基于LeRobot平台构建,采用双摄像头系统(kinect_rgb和c922_webcam)采集机器人操作场景的多模态数据。数据以15帧/秒的速率记录,包含50个完整操作序列,共计8140帧视频数据。原始数据被分块存储为Parquet格式,每个数据块包含1000帧,并附带相应的MP4格式视频文件。数据集采用Apache-2.0开源协议,确保了研究使用的合规性。
特点
该数据集最显著的特点是同时提供kinect_rgb和c922_webcam两个视角的480×640分辨率视频流,形成互补的视觉观测系统。除视觉数据外,还包含机器人状态向量(3维)、动作指令(4维)、语言指令、时间戳等结构化数据。所有数据均经过严格的时间对齐处理,帧索引和片段索引的完整标注支持精细的时序分析。多模态特性使其特别适合机器人视觉伺服、模仿学习等研究场景。
使用方法
使用该数据集时,可通过meta/info.json中的路径模板定位数据文件。训练集包含全部50个操作序列,建议采用流式加载方式处理大型Parquet文件。视频数据采用AV1编码,需配置相应解码器。研究者可利用帧索引实现跨模态数据同步,结合语言指令和动作向量构建端到端学习任务。数据集的结构化设计支持直接应用于强化学习、行为克隆等算法训练。
背景与挑战
背景概述
ur10e_2cam数据集是基于LeRobot平台构建的机器人操作数据集,专注于多视角视觉与动作控制的协同学习。该数据集由HuggingFace社区于2023年发布,采用双摄像头(Kinect RGB和C922网络摄像头)同步采集480p分辨率视频流,涵盖50个任务片段共8140帧数据,旨在为机器人模仿学习与强化学习算法提供多模态训练基准。其核心研究价值在于解决真实场景下机械臂操作任务中视觉感知与运动控制的时序对齐问题,填补了工业级UR10e机器人开源数据集的空白。
当前挑战
该数据集面临两大核心挑战:在领域问题层面,双摄像头异构数据的时间同步与空间标定精度直接影响动作-观察对的建模效果,而动态环境中光照变化与遮挡问题加剧了跨视角特征匹配的难度。在构建过程中,15fps视频流与毫秒级动作指令的时间对齐需要精密的时间戳同步机制,同时4维连续动作空间与3维状态观测的稀疏标注对数据质量提出了更高要求。
常用场景
经典使用场景
在机器人视觉控制领域,ur10e_2cam数据集以其双摄像头配置和多模态数据特性,成为研究机器人视觉伺服系统的经典基准。数据集包含8140帧同步采集的Kinect RGB和C922网络摄像头视频流,配合精确的机械臂状态数据,为研究视觉-动作映射关系提供了理想的实验平台。其15fps的时序连贯性和480×640分辨率图像,特别适合用于连续动作预测算法的训练与验证。
衍生相关工作
基于该数据集的特性,学术界衍生出多项标志性研究。LeRobot团队开发的跨模态预训练框架首次实现了视觉指令到关节力矩的端到端映射,其提出的时空注意力机制被后续研究广泛采用。2023年ICRA最佳论文将数据集扩展为6-DoF操作基准,而MIT提出的分层强化学习方案则利用其语言标注实现了零样本任务泛化。
数据集最近研究
最新研究方向
在机器人视觉与多模态学习领域,ur10e_2cam数据集凭借其双摄像头采集的丰富视觉数据和动作指令标注,正成为研究热点。该数据集为机器人模仿学习提供了高质量的视觉-动作对齐样本,尤其在基于深度强化学习的机械臂控制任务中展现出独特价值。近期研究聚焦于如何利用其多视角视频流提升三维场景理解能力,以及探索语言指令与动作序列的联合建模方法。随着具身智能和通用机器人技术的快速发展,这类结构化时序数据对跨模态表征学习、长时程任务规划等前沿方向具有重要推动作用。
以上内容由遇见数据集搜集并总结生成



