language_table_train_140000_145000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_140000_145000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_140000_145000_augmented数据集是OXE-AugE项目的一部分，包含了多种机器人的增强图像和相关信息，包括google_robot, images, jaco, kinova3等。数据集共有5000个剧集，80121帧，用于扩展跨机器学习策略的学习。

创建时间：

2025-11-11

原始信息汇总

language_table_train_140000_145000_augmented 数据集概述

基本信息

数据集名称: language_table_train_140000_145000_augmented
许可证: CC-BY-4.0
任务类别: 机器人技术
代码库版本: v3.0

数据集规格

机器人类型: google_robot, images, jaco, kinova3, kuka_iiwa, panda, sawyer, ur5e
帧率: 10 FPS
总片段数: 5,000
总帧数: 80,121
数据分割:
- 训练集: 5,000个片段

数据布局

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征说明

图像特征

observation.images.google_robot: 增强的google_robot机器人图像 (360×640×3)
observation.images.image: 原始数据集中的源机器人图像 (360×640×3)
observation.images.jaco: 增强的jaco机器人图像 (360×640×3)
observation.images.kinova3: 增强的kinova3机器人图像 (360×640×3)
observation.images.kuka_iiwa: 增强的kuka_iiwa机器人图像 (360×640×3)
observation.images.panda: 增强的panda机器人图像 (360×640×3)
observation.images.sawyer: 增强的sawyer机器人图像 (360×640×3)
observation.images.ur5e: 增强的ur5e机器人图像 (360×640×3)

索引特征

episode_index: 当前片段在数据集中的索引
frame_index: 当前帧在片段中的索引
index: 整个数据集中的全局帧索引
task_index: 高级任务的整数ID

机器人状态特征

observation.ee_pose: 源机器人的末端执行器位置
observation.joints: 源机器人的关节角度
observation.state: 源机器人RLDS数据集中的状态字段副本

语言指令

natural_language_instruction: 描述任务的自然语言指令

时间特征

timestamp: 当前帧在片段中的时间戳（秒）

各机器人特定特征

每个机器人类型（google_robot, jaco, kinova3, kuka_iiwa, panda, sawyer, ur5e）包含：

base_orientation: 绕z轴逆时针旋转以避免遮挡相机
base_position: 基础平移以确保轨迹可实现
ee_error: 增强机器人与原始机器人之间的末端执行器差异
ee_pose: 机器人的末端执行器位置
joints: 机器人的关节位置

引用政策

使用OXE-AugE数据集时，请同时引用本数据集和上游数据集。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建方式直接影响模型的泛化能力。本数据集基于OXE-AugE框架v3.0版本，通过对原始交互语言数据集进行多机器人增强处理生成。构建过程包含5000个完整任务片段，总计80121帧数据，采样频率为10赫兹。通过几何变换与运动学映射，将原始机器人轨迹适配至八种不同构型机械臂，包括Google Robot、Jaco等主流平台，并保持末端执行器轨迹的物理可行性。数据以分块存储的Parquet格式组织，确保高效读取与分布式处理能力。

特点

该数据集的核心价值在于其跨 embodiment 的通用性特征。通过同步提供八种异构机器人的视觉观测与状态数据，所有图像均统一为360×640×3分辨率。每个帧包含原始机器人图像与七种增强机器人图像，并附带完整的关节角度、末端位姿及基座标系变换参数。自然语言指令以512维向量编码，与机器人动作形成对齐映射。数据集特别标注了各机器人与原始轨迹的末端执行器误差，为跨平台策略迁移研究提供量化依据。

使用方法

针对机器人策略学习任务，该数据集支持端到端的视觉语言动作映射训练。研究者可通过加载Parquet数据文件获取多模态观测序列，其中包含时间对齐的视觉流、状态向量及语言指令。建议采用分层采样策略，按任务索引划分训练验证集。对于跨 embodiment 研究，可利用不同机器人的增强数据对比学习。数据读取需遵循既定路径规范，视频流与特征数据通过全局帧索引实现同步，适用于行为克隆、强化学习等典型机器人学习范式。

背景与挑战

背景概述

机器人学习领域长期面临跨平台泛化能力的瓶颈，language_table_train_140000_145000_augmented数据集作为OXE-AugE项目的重要组成部分，由Guanhua Ji等研究者于2025年构建。该数据集基于2022年Lynch等人提出的交互式语言框架，通过多机器人轨迹增强技术，致力于解决自然语言指令与机器人动作映射的通用表征问题。其核心价值在于整合八种异构机器人平台数据，为跨 embodiment策略学习提供了规模化的训练基础，显著推动了机器人泛化能力的研究进程。

当前挑战

在机器人操作任务中，跨平台动作迁移始终存在运动学约束差异与视觉观测对齐的难题。该数据集通过计算末端执行器位姿误差与基座标系变换，构建了异构机器人间的运动映射关系，但需确保增强轨迹的物理可实现性。数据构建过程中面临多源机器人数据标准化、轨迹可行性验证，以及保持自然语言指令与增强动作语义一致性的技术挑战，这些因素直接影响跨平台策略学习的有效性。

常用场景

经典使用场景

在机器人学习领域，语言引导的跨平台控制任务正成为研究热点。该数据集通过提供八种异构机器人平台的增强轨迹数据，为跨本体策略学习建立了标准化基准。其核心价值在于将原始交互语言指令与多种机器人执行轨迹对齐，使研究者能够系统评估策略在不同机械结构、运动学约束下的泛化能力。

衍生相关工作

基于该数据集衍生的研究主要集中于跨模态表示学习领域。例如通过对比学习构建视觉-语言-动作的联合嵌入空间，或利用图神经网络建模不同机器人之间的运动学关联。这些工作不仅拓展了数据集的利用维度，还催生了新的模型架构设计思路，为构建通用机器人策略学习框架奠定了理论基础。

数据集最近研究