eval_lego-block-2cam

Hugging Face2026-02-15 更新2026-02-16 收录

下载链接：

https://huggingface.co/datasets/vladivanovic/eval_lego-block-2cam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot代码库创建，专注于机器人技术领域。数据集包含3个完整的情节，总计4858帧数据，存储为parquet格式文件，总数据量为100MB，视频文件大小为200MB。数据以30帧每秒的速率采集，包含训练集划分。数据集的主要特征包括机器人动作状态（如肩部、肘部、腕部等位置信息）和观测状态（包括两个视角的图像数据：上视角480x640分辨率，前视角360x640分辨率）。所有图像数据均为彩色（3通道），使用AV1编解码器存储。数据集还包含时间戳、帧索引、情节索引等辅助信息。适用于机器人控制、行为学习等研究任务。

创建时间：

2026-02-14

原始信息汇总

数据集概述

基本信息

数据集名称: eval_lego-block-2cam
创建工具: 使用 LeRobot (https://github.com/huggingface/lerobot) 创建
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模

总情节数: 3
总帧数: 4858
总任务数: 1
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据格式版本: v3.0

数据结构与特征

数据集包含以下主要特征：

动作

数据类型: float32
形状: [6]
描述: 包含6个关节的位置信息
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
描述: 包含6个关节的位置信息（与动作特征相同）

观测图像（上方摄像头）

数据类型: 视频
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

观测图像（前方摄像头）

数据类型: 视频
形状: [360, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 360
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30
- 通道数: 3
- 包含音频: 否

元数据特征

timestamp: 时间戳 (float32, 形状[1])
frame_index: 帧索引 (int64, 形状[1])
episode_index: 情节索引 (int64, 形状[1])
index: 索引 (int64, 形状[1])
task_index: 任务索引 (int64, 形状[1])

数据组织

机器人类型: so_follower
数据分割: 训练集包含所有3个情节 (0:3)
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，eval_lego-block-2cam数据集依托LeRobot平台构建，旨在记录多视角下的机械臂操作序列。该数据集通过双摄像头系统采集，包含三个完整操作片段，总计4858帧数据，以30帧每秒的速率同步记录机械臂关节状态与视觉信息。数据以分块Parquet格式存储，每块约1000帧，辅以AV1编码的MP4视频文件，确保了高效存储与读取。构建过程注重时序对齐，每个数据点均附带时间戳、帧索引与片段索引，为机器人学习任务提供了结构化的多模态轨迹记录。

特点

该数据集的核心特征在于其丰富的多模态表示与精细的时序结构。数据集中同时包含了机械臂的六维关节位置作为动作与状态观测，以及来自上方与前方两个视角的RGB图像流，分辨率分别为480x640与360x640，形成了视觉-动作的对应关系。所有数据均按操作片段组织，并带有精确的帧级索引，支持按时间步进行序列分析。数据集规模适中，专注于单一任务场景，使得其在保持轻量化的同时，为模仿学习或强化学习算法提供了高质量、同步的多传感器输入范例。

使用方法

使用该数据集时，研究者可通过LeRobot或兼容的数据加载工具直接读取Parquet文件与关联视频。数据已预分割为训练集，涵盖全部三个片段，用户可依据帧索引或片段索引提取连续轨迹。典型应用包括训练机器人策略模型，其中观测图像与关节状态可作为输入，而动作数据则作为监督信号。由于数据包含精确的时间对齐，它也适用于时序建模或视频预测任务。需要注意的是，数据集中未提供明确的测试划分，因此在使用时需自行设计评估方案以验证模型泛化能力。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习依赖于高质量、多模态的真实世界交互数据。eval_lego-block-2cam数据集应运而生，它由HuggingFace的LeRobot项目创建，旨在为机器人操作任务提供评估基准。该数据集聚焦于双视角视觉引导的机械臂操作，具体涉及乐高积木的装配任务，通过记录机械臂的关节状态、夹爪动作以及来自上方和前方摄像头的同步视频流，构建了一个包含状态、动作与视觉观测的时序序列。其核心研究问题在于如何利用多传感器融合数据来评估和提升机器人策略在复杂操作任务中的泛化能力与鲁棒性，对推动机器人自主操作系统的实际应用具有重要价值。

当前挑战

该数据集致力于解决机器人操作任务中策略评估的挑战，特别是在非结构化环境下完成精确装配作业时，如何保证策略的稳定性和适应性。构建过程中的主要挑战包括多传感器数据的高精度同步与对齐，确保来自双摄像头的视频流与机械臂状态信息在时序上严格一致；此外，大规模交互数据的高效存储与读取也是一大难题，数据集采用分块压缩的Parquet格式与视频编码技术来平衡数据规模与访问效率。数据采集本身还需克服真实世界环境的动态变化与噪声干扰，以保障数据质量的可靠性与一致性。

常用场景

经典使用场景

在机器人学习领域，eval_lego-block-2cam数据集为模仿学习与视觉运动控制研究提供了关键资源。该数据集通过双摄像头视角捕捉机械臂操作乐高积木的连续动作序列，包含关节位置状态与同步视频流，典型应用于训练端到端的机器人策略模型。研究者利用其多模态观测数据，能够模拟真实环境中的物体操控任务，验证算法在复杂场景下的泛化能力与鲁棒性。

衍生相关工作

围绕该数据集衍生的研究多集中于多视角视觉融合与分层强化学习架构。经典工作包括利用双摄像头数据训练注意力机制模型，以提升机器人对遮挡物体的感知能力；亦有研究借鉴其动作序列设计模块化策略网络，实现复杂操作任务的分解与组合。这些成果进一步拓展了数据集中时空关联特征的挖掘深度，促进了机器人学习范式的演进。

数据集最近研究