language_table_train_110000_115000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_110000_115000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_110000_115000_augmented数据集是一个机器人增强数据集，包含了google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer和ur5e等多种机器人的增强图像和相关信息。数据集共有5000个剧集，约80,139帧，以10帧每秒的帧率记录。数据集分为训练集，适用于机器人控制和策略学习等任务。

创建时间：

2025-11-09

原始信息汇总

数据集概述

基本信息

数据集名称: language_table_train_110000_115000_augmented
许可证: CC-BY-4.0
任务类别: 机器人技术
代码库版本: v3.0

数据集规模

总片段数: 5,000
总帧数: 80,139
帧率: 10 FPS
数据分割: 训练集 (0:5000)

机器人平台

支持以下机器人平台：google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e

数据特征

图像特征

observation.images.google_robot: 增强的google_robot机器人图像 (360×640×3)
observation.images.image: 原始数据集中的源机器人图像 (360×640×3)
observation.images.jaco: 增强的jaco机器人图像 (360×640×3)
observation.images.kinova3: 增强的kinova3机器人图像 (360×640×3)
observation.images.kuka_iiwa: 增强的kuka_iiwa机器人图像 (360×640×3)
observation.images.panda: 增强的panda机器人图像 (360×640×3)
observation.images.sawyer: 增强的sawyer机器人图像 (360×640×3)
observation.images.ur5e: 增强的ur5e机器人图像 (360×640×3)

索引特征

episode_index: 当前片段在数据集中的索引
frame_index: 当前帧在其片段中的索引
index: 整个数据集中的全局帧索引
task_index: 高层级任务的整数ID

机器人状态特征

observation.ee_pose: 源机器人的末端执行器位置
observation.joints: 源机器人的关节角度
observation.state: 源机器人RLDS数据集中状态字段的副本

增强机器人特征

每个机器人平台包含以下特征：

base_orientation: 绕z轴逆时针旋转，避免机器人遮挡相机
base_position: 基础平移，确保轨迹可实现
ee_error: 增强机器人与原始机器人之间的末端执行器差异
ee_pose: 机器人的末端执行器位置
joints: 机器人的关节位置

其他特征

natural_language_instruction: 描述任务的自然语言指令
timestamp: 当前帧在片段中的时间戳（秒）

数据格式

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用要求

使用OXE-AugE数据集时，需要同时引用本数据集和上游数据集。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据增强技术对于提升模型的泛化能力至关重要。该数据集基于原始OXE数据集，通过先进的增强算法对多种机器人平台进行跨本体转换，构建了包含5000个训练片段、80139帧数据的资源。采用10Hz采样频率，数据以分块Parquet格式存储，每个片段包含原始图像与八种增强机器人图像，同时保留完整的运动学参数和自然语言指令。

特点

该数据集在机器人视觉与语言指令交互领域展现出独特价值，其核心特征在于同时提供原始机器人图像与七种异构机器人的增强视觉数据。所有图像均保持360×640×3的统一分辨率，并配备精确的末端执行器位姿、关节角度及基座变换参数。数据集通过自然语言指令字段实现任务描述与动作序列的语义关联，为跨本体策略学习提供多模态对齐基础。

使用方法

研究者可通过加载Parquet数据文件访问多模态机器人交互记录，利用图像序列与对应的运动学参数进行视觉运动策略训练。数据集支持端到端学习框架，用户可基于自然语言指令构建条件生成模型，或通过对比不同机器人的增强数据研究跨本体迁移能力。建议配合官方代码库提供的加载工具，确保正确解析时空索引与多视图图像数据流。

背景与挑战

背景概述

语言交互机器人技术作为人工智能与机器人学交叉领域的前沿方向，其发展依赖于大规模高质量数据集的支持。language_table_train_110000_115000_augmented数据集基于2022年发布的交互式语言机器人研究框架构建，由Google Research等机构联合开发，旨在解决自然语言指令与多机器人动作序列的映射问题。该数据集通过整合八种异构机器人平台的运动轨迹与视觉观测数据，为跨 embodiment 策略学习提供了标准化基准，显著推动了语言引导机器人操作任务的研究进程。

当前挑战

在机器人操作任务领域，跨平台策略泛化面临运动学差异与视觉观测对齐的双重挑战。该数据集构建过程中需克服多机器人轨迹映射的几何约束，通过基座标系变换与末端执行器误差补偿保持动作可行性。同时，数据增强过程需维持原始任务语义一致性，避免视角遮挡导致的视觉特征失真，这些技术难点对跨 embodiment 策略的迁移效果产生直接影响。

常用场景

经典使用场景

在机器人学习领域，language_table_train_110000_115000_augmented数据集通过整合八种异构机器人平台的视觉与运动轨迹数据，为跨具身策略学习提供了标准化实验环境。其核心价值在于利用自然语言指令驱动多机器人协同任务执行，例如通过语言描述引导不同机械臂完成物体抓取或环境交互。该数据集包含5000个任务片段与8万余帧同步观测数据，有效支撑了从单一机器人控制到多平台泛化研究的范式转换。

衍生相关工作

基于该数据集衍生的OXE-AugE框架催生了系列创新研究，例如斯坦福团队提出的跨平台策略蒸馏方法，通过共享表征空间实现多机器人技能迁移。后续工作如《Language-Driven Robotic Manipulation with Cross-Embodiment Pretraining》进一步扩展了语言指令的语义理解范围，推动形成了以增强数据为核心的机器人学习新范式。

数据集最近研究