language_table_train_125000_130000_augmented

Hugging Face2025-11-10 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_125000_130000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_125000_130000_augmented是一个机器人增强数据集，基于oxe-aug代码库版本v2.1构建，包含多种机器人类型，如google_robot, images, jaco等。数据集包含40000个视频，总帧数为78601，分布在5000个Episode中。每个机器人都有增强后的图像、末端执行器位置、关节位置等信息，以及自然语言指令和状态字段。该数据集用于扩展跨机器人学习策略的缩放。

创建时间：

2025-11-10

原始信息汇总

language_table_train_125000_130000_augmented 数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 机器人技术
标签: 机器人技术、lerobot、oxe-aug、数据集

数据集规格

代码库版本: v2.1
帧率: 10 FPS
总片段数: 5,000
总帧数: 78,601
总视频数: 40,000
机器人类型: google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e

数据结构

数据分割: 仅训练集（0:5000）
数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征字段

图像特征

observation.images.google_robot: 增强的google_robot机器人图像（360×640×3）
observation.images.image: 原始数据集中的源机器人图像（360×640×3）
observation.images.jaco: 增强的jaco机器人图像（360×640×3）
observation.images.kinova3: 增强的kinova3机器人图像（360×640×3）
observation.images.kuka_iiwa: 增强的kuka_iiwa机器人图像（360×640×3）
observation.images.panda: 增强的panda机器人图像（360×640×3）
observation.images.sawyer: 增强的sawyer机器人图像（360×640×3）
observation.images.ur5e: 增强的ur5e机器人图像（360×640×3）

机器人状态特征

observation.ee_pose: 源机器人的末端执行器位置（7维）
observation.joints: 源机器人的关节角度（8维）
observation.state: 源机器人RLDS数据集中的状态字段副本（2维）

增强机器人特征

每个机器人类型（google_robot、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e）包含：

base_orientation: 绕z轴逆时针旋转角度
base_position: 基础平移位置（3维）
ee_error: 增强机器人与原始机器人的末端执行器差异（7维）
ee_pose: 末端执行器位置（7维）
joints: 关节位置（7或8维）

元数据特征

episode_index: 片段索引
frame_index: 帧索引
index: 索引
natural_language_instruction: 自然语言指令（512维）
task_index: 任务索引
timestamp: 时间戳

引用政策

使用OXE-Aug数据集时，请同时引用本数据集和上游数据集。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据增强技术对于提升模型泛化能力具有关键作用。本数据集基于Open X-Embodiment（OXE）框架构建，通过系统化的数据增强方法扩展原始交互语言数据集。构建过程涉及对八种不同机器人平台（包括Google Robot、Jaco、Kinova3等）的轨迹数据进行标准化处理，采用10Hz采样频率从5000个交互片段中提取78601帧数据。数据以分块形式存储于Parquet格式文件，每个片段包含原始图像观测与增强后的多机器人视角图像，同时保留末端执行器位姿、关节状态等关键运动学信息。

特点

该数据集在跨 embodiment 机器人学习领域展现出显著特色。其核心特征在于提供了八种异构机器人平台的统一表示，每种机器人均包含360×640分辨率的增强图像序列及对应的运动学参数。数据集特别设计了避免相机遮挡的基座标系变换，并精确记录了各机器人与原始轨迹的末端执行器误差。丰富的观测维度覆盖了原始图像、增强图像、关节角度、位姿状态等多模态信息，同时整合了512维的自然语言指令嵌入，为语言引导的机器人策略学习提供了完备的数据基础。

使用方法

针对机器人策略学习的研究需求，该数据集支持端到端的训练流程。研究者可通过加载指定分块的Parquet文件获取结构化数据，利用observation字段下的多机器人图像序列和状态信息构建输入特征。自然语言指令字段可与视觉运动数据联合训练跨 embodiment 策略模型。数据集遵循标准RLDS格式，支持直接接入主流强化学习框架。建议使用者同时引用原始交互语言论文和OXE-Aug技术报告，以确保学术规范的完整性。视频数据可通过配套路径加载，便于定性分析和可视化验证。

背景与挑战

背景概述

随着机器人技术向跨具身智能方向发展，语言引导的机器人操作数据集成为推动具身人工智能进步的关键基础设施。该数据集基于OXE-Aug项目构建，整合了八种异构机器人平台的真实交互数据，其核心研究目标在于探索自然语言指令与多机器人运动轨迹之间的语义映射关系。通过大规模数据增强技术，该数据集有效扩展了原始语言交互数据集规模，为跨机器人平台策略迁移研究提供了重要实验基础。

当前挑战

跨具身机器人学习面临本体差异导致的动作空间异构性挑战，需解决不同机械结构间的运动学映射问题。数据构建过程中需克服多源传感器时序对齐、轨迹可行性保持等工程难题，同时确保增强后的视觉观测与运动学参数保持物理一致性。大规模数据生成还需平衡计算效率与数据质量，避免仿真与现实间的领域鸿沟。

常用场景

经典使用场景

在机器人学习领域，该数据集通过跨平台增强技术，为语言引导的机器人操作任务提供了标准化训练资源。其核心应用场景聚焦于多机器人系统的视觉运动策略学习，利用自然语言指令与多视角图像数据，模拟真实环境中的交互任务。数据集涵盖八种主流机器人平台的运动轨迹与视觉观测，支持从单一指令到复杂动作序列的端到端策略训练。

衍生相关工作

基于该数据集衍生的研究推动了跨平台策略学习范式的演进，催生了如OXE-Aug等大规模增强系统的构建。相关经典工作探索了多模态表征在机器人操作中的迁移效能，发展了基于语言指令的元强化学习框架。这些研究通过统一不同机器人的动作语义空间，为构建通用机器人策略模型提供了重要方法论支撑，持续推动着开放词汇表机器人控制技术的前沿发展。

数据集最近研究