language_table_train_135000_140000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_135000_140000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_135000_140000_augmented是一个机器人增强数据集，包含了8种不同类型的机器人，包括google_robot, images, jaco, kinova3, kuka_iiwa, panda, sawyer, ur5e。每个机器人都有增强的图像和相关的状态信息。数据集的版本是v3.0，共有5000个剧集，79556帧。

创建时间：

2025-11-11

原始信息汇总

Language Table Train 135000-140000 Augmented 数据集概述

基本信息

数据集名称: language_table_train_135000_140000_augmented
许可证: CC-BY-4.0
代码库版本: v3.0
任务类别: 机器人技术
标签: 机器人技术、lerobot、oxe-auge、数据集

数据集规格

帧率: 10 FPS
总片段数: 5,000
总帧数: 79,556
总视频数: 未指定
支持机器人: google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e

数据划分

训练集: 5,000个片段

数据布局

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征结构

图像特征

特征	类型	尺寸	描述
observation.images.google_robot	video	360×640×3	google_robot机器人的增强图像
observation.images.image	video	360×640×3	原始数据集中的源机器人图像
observation.images.jaco	video	360×640×3	jaco机器人的增强图像
observation.images.kinova3	video	360×640×3	kinova3机器人的增强图像
observation.images.kuka_iiwa	video	360×640×3	kuka_iiwa机器人的增强图像
observation.images.panda	video	360×640×3	panda机器人的增强图像
observation.images.sawyer	video	360×640×3	sawyer机器人的增强图像
observation.images.ur5e	video	360×640×3	ur5e机器人的增强图像

索引特征

episode_index: 当前片段在数据集中的索引
frame_index: 当前帧在片段中的索引
index: 整个数据集中的全局帧索引
task_index: 高级任务的整数ID
timestamp: 片段内当前帧的时间戳（秒）

语言特征

natural_language_instruction: 描述任务的自然语言指令

机器人状态特征

observation.ee_pose: 源机器人的末端执行器位置
observation.joints: 源机器人的关节角度
observation.state: 源机器人RLDS数据集中状态字段的副本

各机器人特定特征

每个支持的机器人（google_robot、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e）包含：

base_orientation: 绕Z轴逆时针旋转角度
base_position: 基础平移
ee_error: 增强机器人与原始机器人之间的末端执行器差异
ee_pose: 末端执行器位置
joints: 关节位置

引用政策

使用OXE-AugE数据集时，请同时引用我们的数据集和上游数据集。

搜集汇总

数据集介绍

构建方式

该数据集基于机器人交互任务构建，采用数据增强技术对原始OXE数据集进行扩展。通过多机器人平台采集的5000个交互片段，以10帧/秒的采样率生成79556帧数据，采用分块存储的Parquet格式组织。增强过程中对八种主流机器人模型进行运动轨迹映射，通过基座标系变换和末端执行器误差补偿保持动作可行性，同时确保增强后的机器人不会遮挡视觉传感器视野。

特点

数据集涵盖八种异构机器人平台的增强数据，包括Google Robot、Jaco、Kinova3等主流机型。每个样本包含360×640分辨率的RGB图像序列、七自由度末端执行器位姿、关节角度状态及512维自然语言指令。独特的跨平台增强特性体现在为每个原始轨迹生成多种机器人变体，同时保留原始状态信息和时间戳标记，为研究跨 embodiment 策略学习提供丰富对比样本。

使用方法

研究人员可通过加载Parquet格式数据文件访问多模态观测数据，利用自然语言指令字段构建语言引导的机器人控制任务。数据集支持端到端策略学习、跨平台迁移研究及视觉语言动作对齐任务。建议配合官方提供的代码库进行数据预处理，注意遵循CC-BY-4.0许可要求并同时引用原始数据集和增强数据集的论文成果。

背景与挑战

背景概述

在机器人学习领域，跨本体策略泛化已成为关键研究方向。language_table_train_135000_140000_augmented数据集作为OXE-AugE项目的重要组成部分，由Guanhua Ji等研究者于2025年构建，其核心目标在于通过数据增强技术解决不同机器人平台间的策略迁移难题。该数据集基于2022年发布的Interactive Language原始研究，通过融合八种异构机器人平台的运动轨迹与自然语言指令，构建了包含79556帧的多模态交互数据，为具身智能系统的跨平台泛化能力提供了重要支撑。

当前挑战

该数据集致力于攻克机器人指令理解与执行的跨本体泛化难题，其核心挑战在于如何保证增强后的运动轨迹在异构机器人间的物理可行性。构建过程中需精确计算末端执行器位姿误差，协调不同机械结构的运动学约束，同时维持自然语言指令与增强轨迹的语义一致性。数据同步处理涉及多源传感器信息融合，需解决时间戳对齐与空间坐标统一等技术瓶颈，确保增强数据在保持原始任务意图的同时满足各机器人平台的运动学特性。

常用场景

经典使用场景

在机器人学习领域，该数据集通过多机器人视觉动作轨迹的增强数据，为跨本体策略学习提供了关键支撑。其核心应用场景在于训练能够理解自然语言指令并执行复杂操作的通用机器人策略模型，涵盖从简单物体抓取到精细操作任务的全流程学习。

衍生相关工作

该数据集催生了系列跨模态机器人学习研究，包括基于语言条件的策略蒸馏、多机器人知识迁移框架等创新工作。其提供的标准化增强流程为后续研究建立了可复现的基准，推动了如OXE-AugE等项目在跨本体模仿学习领域的深入探索，形成完整的技术演进脉络。

数据集最近研究