language_table_train_106000_107000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_106000_107000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_106000_107000_augmented数据集是OXE-AugE项目的一部分，包含了使用不同机器人（google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e）的增强图像和相关信息。数据集共有1000个剧集，15,666帧，采用10帧每秒的帧率。每个剧集包含自然语言指令、机器人末端执行器的位置和误差、关节角度等信息。

创建时间：

2025-11-09

原始信息汇总

数据集概述

基本信息

数据集名称: language_table_train_106000_107000_augmented
许可证: CC-BY-4.0
任务类别: 机器人技术
代码库版本: v3.0

数据集规模

总片段数: 1,000
总帧数: 15,666
帧率: 10 FPS
数据分割: train (0:1000)

机器人类型

支持以下机器人平台：

google_robot
images
jaco
kinova3
kuka_iiwa
panda
sawyer
ur5e

数据特征

图像特征

所有机器人图像特征均为360×640×3分辨率的视频数据：

observation.images.google_robot: 谷歌机器人增强图像
observation.images.image: 原始数据集中的源机器人图像
observation.images.jaco: Jaco机器人增强图像
observation.images.kinova3: Kinova3机器人增强图像
observation.images.kuka_iiwa: KUKA iiwa机器人增强图像
observation.images.panda: Panda机器人增强图像
observation.images.sawyer: Sawyer机器人增强图像
observation.images.ur5e: UR5e机器人增强图像

索引特征

episode_index: 当前片段在数据集中的索引
frame_index: 当前帧在片段中的索引
index: 整个数据集中的全局帧索引
task_index: 高层级任务的整数ID

机器人状态特征

每个机器人类型包含以下状态信息：

base_orientation: 绕Z轴逆时针旋转角度
base_position: 基础平移位置
ee_error: 增强机器人与原始机器人末端执行器差异
ee_pose: 末端执行器位置
joints: 关节位置

其他特征

natural_language_instruction: 描述任务的自然语言指令
observation.ee_pose: 源机器人末端执行器位置
observation.joints: 源机器人关节角度
observation.state: 源机器人RLDS数据集状态字段副本
timestamp: 当前帧在片段中的时间戳

数据布局

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

相关资源

网站: https://oxe-auge.github.io/
项目仓库: https://github.com/GuanhuaJi/oxe-auge
论文: https://arxiv.org/abs/2210.06407

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建方式直接影响模型泛化能力。本数据集基于OXE-AugE框架，通过对原始交互语言数据执行跨机器人增强处理，将单一机器人轨迹映射至八种不同机械臂平台。构建过程采用参数化坐标变换与运动学约束保持，确保增强后的轨迹在各类机器人工作空间内可达且物理合理。数据以10Hz频率采样，涵盖1000个完整任务片段，存储为分块Parquet格式以实现高效流式读取。

使用方法

针对机器人策略学习场景，本数据集建议通过标准数据加载器按分块路径读取Parquet文件。研究者可基于自然语言指令字段构建视觉语言导航任务，或利用多机器人状态数据训练跨平台控制策略。数据集中各机器人观测字段相互独立，支持选择性加载以降低内存开销。训练时应结合时间戳与帧索引字段重建连续轨迹，末端执行器误差数据可用于监督增强机器人动作生成。相关代码库提供预处理工具链，便于将数据转换为常见强化学习框架输入格式。

背景与挑战

背景概述

机器人学习领域长期面临跨平台泛化能力不足的瓶颈，language_table_train_106000_107000_augmented数据集作为OXE-AugE项目的重要组成部分，由Guanhua Ji等研究者于2025年基于Open X-Embodiment（OXE）框架构建。该数据集通过数据增强技术将原始语言指令驱动的机器人操作轨迹扩展到八种异构机器人平台，包括Google Robot、Panda等主流机型，其核心目标在于解决视觉语言指令到多机器人动作映射的跨实体泛化问题。通过包含15666帧视觉观测与关节状态数据，该资源显著推进了机器人策略在异构硬件间的迁移学习研究。

当前挑战

跨实体机器人学习需克服不同机械结构运动学约束的建模难题，该数据集通过计算末端执行器位姿误差与基座标系变换，确保增强轨迹在目标机器人上的物理可行性。构建过程中面临多源数据对齐的复杂性，需协调异构机器人的关节空间维度差异与视觉观测视角变换，同时维持语言指令与动作序列的语义一致性。数据增强时还需平衡轨迹保真度与运动多样性，避免因坐标转换累积误差导致动作失真。

常用场景

经典使用场景

在机器人学习领域，该数据集通过多机器人视觉语言指令数据，为跨 embodiment 策略学习提供了标准化基准。其核心应用场景在于训练机器人理解自然语言指令并执行桌面操作任务，例如物体抓取、放置和移动等。数据集包含八种主流机器人平台的增强图像和运动轨迹，支持从视觉输入到动作输出的端到端策略学习。

解决学术问题

该数据集有效解决了机器人学习中的跨平台泛化难题，通过统一的动作空间表示和增强数据，显著提升了策略在不同机械臂间的迁移能力。其创新性地构建了多机器人轨迹对齐机制，为研究语言引导的跨 embodiment 策略学习提供了关键基础设施，推动了机器人泛化能力研究的实质性进展。

实际应用

在工业自动化和服务机器人领域，该数据集支撑了智能抓取系统的开发，使机器人能够根据自然语言指令完成复杂操作任务。其多机器人兼容特性特别适用于需要快速部署不同机械臂的柔性制造场景，同时为家庭服务机器人的语义理解与动作执行提供了可靠的数据支撑。

数据集最近研究