language_table_train_160000_165000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_160000_165000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_160000_165000_augmented是一个基于机器人操作的数据集，包含从8种不同机器人（google_robot, images, jaco, kinova3, kuka_iiwa, panda, sawyer, ur5e）收集的增强图像和相关信息。数据集共有5000个剧集，79439帧，以10帧每秒的帧率记录。每个剧集包含了机器人的末端执行器位置、关节位置、自然语言指令等信息，用于机器人学习和研究。

创建时间：

2025-11-12

原始信息汇总

Language Table Train 160000-165000 Augmented 数据集概述

基本信息

数据集名称: language_table_train_160000_165000_augmented
许可证: CC-BY-4.0
代码库版本: v3.0
帧率: 10 FPS
总片段数: 5,000
总帧数: 79,439
数据分割: train (0:5000)

机器人类型

google_robot
images
jaco
kinova3
kuka_iiwa
panda
sawyer
ur5e

数据布局

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

图像特征

observation.images.google_robot: 增强的google_robot机器人图像 (360×640×3)
observation.images.image: 原始数据集中的源机器人图像 (360×640×3)
observation.images.jaco: 增强的jaco机器人图像 (360×640×3)
observation.images.kinova3: 增强的kinova3机器人图像 (360×640×3)
observation.images.kuka_iiwa: 增强的kuka_iiwa机器人图像 (360×640×3)
observation.images.panda: 增强的panda机器人图像 (360×640×3)
observation.images.sawyer: 增强的sawyer机器人图像 (360×640×3)
observation.images.ur5e: 增强的ur5e机器人图像 (360×640×3)

索引特征

episode_index: 当前片段在数据集中的索引 (int64)
frame_index: 当前帧在其片段中的索引 (int64)
index: 整个数据集的全局帧索引 (int64)
task_index: 高级任务的整数ID (int64)

语言指令

natural_language_instruction: 描述任务的自然语言指令 (int32, 512)

机器人状态特征

observation.ee_pose: 源机器人的末端执行器位置 (float32, 7)
observation.joints: 源机器人的关节角度 (float32, 8)
observation.state: 源机器人RLDS数据集中状态字段的副本 (float32, 2)
timestamp: 当前帧在片段中的时间戳 (float32, 1)

各机器人增强特征

每个机器人类型包含以下特征：

base_orientation: 绕z轴逆时针旋转以避免遮挡相机 (float32, 1)
base_position: 应用的基础平移以确保轨迹可实现 (float32, 3)
ee_error: 增强机器人与原始机器人之间的末端执行器差异 (float32, 7)
ee_pose: 机器人的末端执行器位置 (float32, 7)
joints: 机器人的关节位置 (float32, 7或8)

引用要求

使用OXE-AugE数据集时，请同时引用我们的数据集和上游数据集。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建方式直接影响模型的泛化能力。该数据集基于OXE-AugE框架v3.0版本，通过跨 embodiment 增强技术对原始交互语言数据集进行扩展。构建过程涉及从八种机器人平台（包括Google Robot、Jaco、Kinova3等）采集的5000个任务片段，以10帧/秒的采样率生成79439帧数据。数据以分块存储的Parquet格式组织，每个片段包含原始机器人图像与七种增强机器人图像的并行观测序列，同时保留末端执行器位姿、关节角度等物理状态信息。

特点

该数据集在机器人视觉语言任务中展现出显著的多模态特性。其核心特征在于同时包含原始机器人图像和七种不同机器人的增强图像，所有视觉数据均统一为360×640×3的分辨率。数据集提供完整的机器人状态观测，包括末端执行器位姿、关节角度及基座标变换参数，并配备512维的自然语言指令编码。特别值得注意的是，每个增强机器人数据均包含与原始机器人的运动学误差度量，为跨 embodiment 策略迁移研究提供了关键对比基准。

使用方法

针对机器人策略学习研究，该数据集支持端到端的训练流程。使用者可通过加载Parquet格式的数据文件直接获取分块存储的观测序列，其中训练集包含全部5000个任务片段。数据使用时应遵循跨 embodiment 学习范式，利用多机器人并行观测数据训练统一的视觉语言动作模型。研究人员可基于自然语言指令和多种机器人视觉输入，联合学习机器人位姿控制与任务执行策略，同时通过末端执行器误差数据评估策略迁移效果。数据集配套的代码库和论文为实现标准化实验流程提供了必要参考。

背景与挑战

背景概述

语言交互机器人技术正成为人机协作领域的前沿研究方向，该数据集作为OXE-AugE项目的重要组成部分，由Guanhua Ji等研究人员于2025年构建。其核心目标在于解决跨本体机器人策略学习中的泛化性问题，通过数据增强技术将原始交互语言指令转化为适用于八种不同机器人平台的动作轨迹。该数据集基于2022年发布的交互语言机器人研究基础，通过大规模轨迹转换实现了机器人动作策略的跨平台迁移，为多模态机器人学习提供了关键数据支撑。

当前挑战

在机器人视觉语言指令遵循领域，该数据集致力于克服跨本体策略迁移的核心难题。具体挑战包括保持不同机器人运动学约束下的轨迹可行性，确保增强后的末端执行器位姿与原始指令意图一致。构建过程中面临多机器人坐标系对齐、关节空间映射转换等技术难点，同时需维持自然语言指令与增强后机器人动作的语义一致性，这对数据生成算法的精确度提出了极高要求。

常用场景

经典使用场景

在机器人学习领域，language_table_train_160000_165000_augmented数据集通过多机器人视觉与语言指令的融合，为跨 embodiment 策略学习提供了标准化实验平台。其核心价值在于整合了八种主流机器人平台的增强图像数据与自然语言指令，使研究者能够系统评估不同机械结构对任务理解的影响。该数据集以10帧/秒的时序记录和79,439帧视觉轨迹，构建了从语言指令到机器人动作的端到端映射关系，成为验证视觉语言模型在机器人控制任务中泛化能力的基准环境。

衍生相关工作

基于该数据集衍生的经典研究包括跨 embodiment 策略蒸馏框架，通过共享表征学习实现多机器人动作策略的统一建模。OXE-AugE项目提出的数据增强流水线，开创了通过几何变换生成异构机器人数据的新范式。后续工作在此基础上发展了语言条件化的运动原语库，将自然语言指令解构为可组合的基础动作单元。这些成果共同推动了机器人学习从单一平台专用模型向通用跨平台控制范式的转变。

数据集最近研究