language_table_train_120000_125000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_120000_125000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_120000_125000_augmented数据集是一个机器人增强数据集，包含google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer和ur5e等多种机器人类型。数据集总共有5000个剧集，每个剧集中的帧数总计达到80140帧。数据集提供了丰富的特征，包括增强后的机器人图像、原始数据集中的机器人图像、机器人末端执行器的位置、误差、关节角度等信息。

创建时间：

2025-11-10

原始信息汇总

数据集概述

基本信息

数据集名称: language_table_train_120000_125000_augmented
许可证: CC-BY-4.0
代码库版本: v3.0
任务类别: 机器人技术

数据统计

总片段数: 5,000
总帧数: 80,140
帧率: 10 FPS
数据分割: 训练集 (0:5000)

机器人类型

支持以下8种机器人平台：

google_robot
images
jaco
kinova3
kuka_iiwa
panda
sawyer
ur5e

数据特征

图像特征

observation.images.google_robot: 360×640×3，谷歌机器人增强图像
observation.images.image: 360×640×3，原始数据集源机器人图像
observation.images.jaco: 360×640×3，Jaco机器人增强图像
observation.images.kinova3: 360×640×3，Kinova3机器人增强图像
observation.images.kuka_iiwa: 360×640×3，Kuka IIWA机器人增强图像
observation.images.panda: 360×640×3，Panda机器人增强图像
observation.images.sawyer: 360×640×3，Sawyer机器人增强图像
observation.images.ur5e: 360×640×3，UR5e机器人增强图像

索引特征

episode_index: 当前片段在数据集中的索引
frame_index: 当前帧在片段中的索引
index: 整个数据集中的全局帧索引
task_index: 高层级任务的整数ID

机器人状态特征

observation.ee_pose: 源机器人末端执行器位置
observation.joints: 源机器人关节角度
observation.state: 源机器人RLDS数据集状态字段副本

增强机器人特征

每个机器人平台包含：

base_orientation: 绕Z轴逆时针旋转角度
base_position: 基础平移
ee_error: 增强机器人与原始机器人末端执行器差异
ee_pose: 末端执行器位置
joints: 关节位置

其他特征

natural_language_instruction: 自然语言指令
timestamp: 当前帧在片段中的时间戳

数据布局

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用要求

使用OXE-AugE数据集时需同时引用本数据集和上游数据集。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建方式直接影响模型的泛化能力。该数据集基于Open X-Embodiment（OXE）框架，通过数据增强技术将原始机器人轨迹映射到八种不同形态的机器人平台上，包括Google Robot、Jaco、Kinova3等。构建过程涉及对原始图像和末端执行器轨迹的几何变换，确保增强后的数据保持运动学可行性。数据以10帧/秒的采样率组织成5000个训练片段，共计80140帧，存储为分块Parquet格式以实现高效访问。

特点

该数据集最显著的特点是实现了跨机器人平台的多模态数据统一。每个数据帧包含原始机器人图像与七种增强机器人图像的并行视觉流，分辨率统一为360×640×3。运动学特征方面，提供了完整的关节角度、末端执行器位姿及基座标系变换参数。语言指令嵌入维度为512，与视觉-运动数据形成对齐。数据集通过严格的坐标变换保证不同机器人间的运动轨迹一致性，末端执行器误差字段则量化了跨平台映射的精度。

使用方法

该数据集适用于跨机器人策略学习的训练与评估。研究者可通过加载Parquet文件直接获取多机器人平台的同步观测数据，其中图像数据以MP4视频流格式存储于独立路径。使用时应同时引用原始OXE数据集和本增强数据集以遵循学术规范。建议优先利用自然语言指令字段构建语言条件策略，结合多机器人观测数据训练跨平台泛化模型。数据分块结构支持流式加载，适合大规模分布式训练场景。

背景与挑战

背景概述

语言引导机器人操作数据集作为机器人学习领域的重要资源，其发展源于对跨平台通用策略的迫切需求。该数据集基于2022年发布的交互式语言机器人研究框架构建，通过整合八种异构机器人平台（包括Google Robot、KUKA等）的视觉运动数据，致力于解决自然语言指令到多机器人动作映射的核心问题。其数据增强技术通过坐标变换与姿态误差补偿，实现了原始轨迹在不同机械结构间的迁移，为大规模跨 embodiment 策略学习提供了标准化基准。

当前挑战

跨平台机器人操作面临本体差异导致的运动学解耦难题，需在保持任务语义一致性的前提下实现末端轨迹的精确映射。数据集构建过程中需克服多源传感器数据的时间对齐问题，以及不同机器人工作空间约束下的轨迹可行性验证。增强生成环节还需解决视觉遮挡规避与动力学约束满足等复合挑战，确保合成数据既符合物理规律又保留原始任务意图。

常用场景

经典使用场景

在机器人学习领域，该数据集通过多机器人视觉运动轨迹的增强数据，为跨 embodiment 策略学习提供了关键支撑。其核心应用场景聚焦于训练能够理解自然语言指令的通用机器人策略模型，借助包含八种异构机器人平台的80,140帧同步数据，研究者可构建对语言指令具有鲁棒响应的视觉运动控制策略。

解决学术问题

该数据集有效解决了机器人学习中的跨平台泛化难题，通过轨迹增强技术将单一任务数据扩展到多机器人形态。其意义在于突破了传统方法对特定机器人硬件的依赖，为构建通用机器人策略提供了数据基础。该工作显著推进了视觉语言动作模型的发展，使机器人能够通过自然语言指令执行复杂操作任务。

衍生相关工作

该数据集衍生的重要研究包括跨 embodiment 策略迁移框架和视觉语言动作模型的规模化训练。基于其多机器人轨迹数据，研究者开发了能够处理异构机器人形态的统一策略表示方法。这些工作推动了机器人学习从单一平台向通用化方向发展，为构建大规模机器人基础模型奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集