eval_fork_hori_12k

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/JiabinQ/eval_fork_hori_12k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人数据集，包含10个 episodes，共计6116帧，1个任务，20个视频和1个数据块。每个数据块包含1000帧数据。数据集提供了包括肩部、肘部、手腕和夹爪位置在内的多种特征，以及左侧和前方的视频图像。所有数据均以Parquet格式存储，并配有相应的视频文件。

This is a robotic dataset containing 10 episodes, with a total of 6116 frames, 1 task, 20 videos, and 1 data block. Each data block holds 1000 frames of data. The dataset offers multiple features including the positions of the shoulder, elbow, wrist and gripper, alongside video footage captured from the left and front perspectives. All dataset contents are stored in Parquet format, accompanied by their corresponding video files.

创建时间：

2025-08-09

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot
代码库版本: v2.1
机器人类型: so101_follower
帧率 (fps): 30

数据集结构

总集数: 10
总帧数: 6116
总任务数: 1
总视频数: 20
总块数: 1
块大小: 1000
训练集分割: 0:10

数据文件路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: 同动作特征
观测图像 (observation.images.left 和 observation.images.front):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30
  - 通道数: 3
  - 是否有音频: false
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，eval_fork_hori_12k数据集通过LeRobot平台系统性地采集了真实机械臂操作数据。该数据集包含10个完整操作片段，总计6116帧30fps的高频采样数据，采用分块存储架构将数据组织于parquet格式文件中。数据采集基于so101_follower型机器人平台，同步记录多模态传感器信息，并通过严格的时序对齐确保数据一致性。

特点

该数据集的核心特征体现在其多模态异构数据结构，同时包含六维关节空间的动作向量与对应的状态观测值。视觉维度提供480x640分辨率的双视角彩色视频流，分别从左侧和前方位视角捕捉操作场景，采用AV1编解码技术平衡存储效率与图像质量。数据标注体系包含精确的时间戳、帧索引和任务索引，为时序分析提供坚实基础，所有数据字段均遵循统一的张量形状规范。

使用方法

研究人员可通过解析parquet数据文件获取结构化操作数据，利用帧索引实现多模态数据的时序对齐。视觉数据以MP4格式独立存储，需通过视频路径模板进行调用，动作与状态数据采用float32精度存储六维关节参数。数据集默认配置为训练用途，支持直接加载至深度学习框架进行模仿学习或强化学习算法的训练，其标准化的数据接口确保与主流机器人学习框架的兼容性。

背景与挑战

背景概述

eval_fork_hori_12k数据集作为机器人技术领域的重要数据资源，由LeRobot研究团队基于Apache 2.0开源协议构建，专注于多模态机器人控制与行为学习。该数据集采集自so101_follower型机器人平台，包含6116帧高精度时序数据，涵盖六自由度机械臂关节运动轨迹、双视角视觉感知信息及任务执行状态标记。其设计初衷在于解决现实场景中机器人动作模仿与环境交互的复杂性问题，为强化学习与模仿学习算法提供高质量的训练与验证基准，推动具身智能系统的实际应用发展。

当前挑战

该数据集核心挑战集中于异构多模态数据的时空对齐与语义一致性维护，需同步处理30fps视频流与毫秒级关节控制信号的精确匹配。在构建过程中，面临机械臂运动轨迹噪声抑制、双视角视觉传感器标定误差补偿、以及长时序任务片段的数据完整性保障等工程难题。领域层面需解决高维连续动作空间中的策略泛化问题，克服现实环境中光照变化、遮挡干扰等不确定因素对视觉感知模型带来的分布偏移挑战。

常用场景

经典使用场景

在机器人学习领域，eval_fork_hori_12k数据集通过记录六自由度机械臂的关节位置状态与多视角视觉观测，为模仿学习算法提供了丰富的训练样本。其经典应用场景包括机械臂轨迹规划与视觉伺服控制，研究者可利用该数据集构建从视觉输入到动作输出的端到端映射模型，特别适用于基于深度学习的策略网络训练。

衍生相关工作

该数据集催生了多项机器人学习领域的创新研究，包括基于时空注意力机制的视觉运动Transformer模型、多传感器融合的强化学习框架SO101-MFRL，以及跨模态对比学习算法VACT。这些工作通过挖掘数据集蕴含的状态-动作对应关系，显著推动了视觉运动控制技术的理论边界。

数据集最近研究