language_table_train_15000_20000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_15000_20000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_15000_20000_augmented是一个机器人增强数据集，包含了8种不同机器人的增强图像、位置信息和关节角度等数据，总共有79558帧，分为5000个剧集。数据集适用于机器人学领域，尤其是机器人增强和跨体型策略学习。

创建时间：

2025-11-12

原始信息汇总

language_table_train_15000_20000_augmented 数据集概述

基本信息

许可证: CC-BY-4.0
代码库版本: v3.0
任务类别: 机器人技术
标签: 机器人技术, lerobot, oxe-auge, 数据集

数据集统计

总片段数: 5,000
总帧数: 79,558
帧率: 10 FPS
机器人类型: google_robot, images, jaco, kinova3, kuka_iiwa, panda, sawyer, ur5e

数据划分

训练集: 5,000个片段

数据布局

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

图像观察特征

observation.images.google_robot: 增强的google_robot机器人图像 (360×640×3)
observation.images.image: 原始数据集中源机器人的图像 (360×640×3)
observation.images.jaco: 增强的jaco机器人图像 (360×640×3)
observation.images.kinova3: 增强的kinova3机器人图像 (360×640×3)
observation.images.kuka_iiwa: 增强的kuka_iiwa机器人图像 (360×640×3)
observation.images.panda: 增强的panda机器人图像 (360×640×3)
observation.images.sawyer: 增强的sawyer机器人图像 (360×640×3)
observation.images.ur5e: 增强的ur5e机器人图像 (360×640×3)

索引特征

episode_index: 当前片段在数据集中的索引
frame_index: 当前帧在其片段中的索引
index: 整个数据集中的全局帧索引
task_index: 高层级任务的整数ID

语言指令

natural_language_instruction: 描述任务的自然语言指令 (512维)

机器人状态特征

observation.ee_pose: 源机器人的末端执行器位置 (7维)
observation.joints: 源机器人的关节角度 (8维)
observation.state: 源机器人RLDS数据集中状态字段的副本 (2维)

各机器人增强特征

每个机器人类型包含以下特征：

base_orientation: 绕z轴逆时针旋转以避免遮挡相机
base_position: 基础平移以确保轨迹可实现
ee_error: 增强机器人与原始机器人之间的末端执行器差异
ee_pose: 机器人的末端执行器位置
joints: 机器人的关节位置

时间特征

timestamp: 当前帧在片段中的时间戳（秒）

引用政策

使用OXE-AugE数据集时，请同时引用本数据集和上游数据集。

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据增强技术对提升模型泛化能力具有关键作用。本数据集基于原始OXE数据集，通过多机器人仿真平台对5000个交互片段进行系统性增强处理，涵盖谷歌机器人、Jaco、Kinova3等八种主流机械臂平台。构建过程中采用10帧/秒的采样频率，通过坐标变换与运动轨迹映射技术，为每种机器人生成对应的末端执行器位姿、关节角度及视觉观测数据，同时保留原始机器人的状态信息作为参考基准。

特点

该数据集在跨 embodiment 策略学习方面展现出显著优势，其核心特征在于同时包含原始机器人观测数据与七种增强机器人的多模态信息。每个数据帧均配备360×640分辨率的RGB图像序列，并精确记录各机器人的基座标变换、末端位姿误差等物理量。数据集结构采用分块存储的Parquet格式，包含79558个数据帧，支持高效的大规模机器学习训练。自然语言指令字段采用512维向量编码，为语言引导的机器人控制任务提供丰富语义上下文。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，默认配置包含完整的训练集划分。数据访问遵循标准Parquet文件读取流程，对应视频数据存储于独立MP4文件中。该数据集适用于跨 embodiment 策略迁移、视觉语言导航等研究场景，使用者需同时引用原始OXE数据集及本增强数据集的文献资料。建议在加载时注意各机器人观测数据的对应关系，充分利用多机器人平行数据开展对比实验与泛化性能验证。

背景与挑战

背景概述

在机器人学习领域，跨本体策略泛化一直是制约算法实际部署的关键瓶颈。language_table_train_15000_20000_augmented数据集作为OXE-AugE项目的重要组成部分，由加州大学伯克利分校等机构于2025年发布。该数据集通过多机器人轨迹增强技术，将原始交互语言任务数据扩展至八种异构机器人平台，其核心目标在于探索自然语言指令驱动下的跨本体策略迁移机制。该工作通过79,558帧视觉运动轨迹数据，为研究语言引导的通用机器人控制提供了规模化实验基础。

当前挑战

跨本体机器人学习面临异构机械结构运动学映射的固有难题，需解决不同自由度机器人的末端执行器轨迹精确对齐问题。数据集构建过程中需克服多源传感器数据时空同步的复杂性，在保持原始任务语义一致性的同时，需确保增强后的轨迹在各类机器人工作空间内的物理可行性。此外，大规模多模态数据融合还涉及计算资源优化与存储效率提升等工程挑战。

常用场景

经典使用场景

在机器人学习领域，该数据集通过多机器人视觉与语言指令的融合，为跨平台策略迁移提供了标准化实验环境。其核心价值在于利用增强技术将原始交互轨迹映射至八种异构机器人平台，涵盖从工业机械臂到研究型机器人的广泛硬件配置。每个样本包含自然语言指令与对应的机器人末端执行器轨迹，支持研究者构建从语言到动作的端到端学习框架，为视觉语言导航和操作任务奠定数据基础。

衍生相关工作

基于该数据集的特性，学术界已衍生出多项跨平台策略学习的重要工作。例如通过对比学习实现多机器人视觉表征对齐的方法，以及基于语言指令的零样本策略迁移框架。这些研究充分利用数据集提供的多机器人轨迹对应关系，探索了跨平台策略泛化的理论边界。部分工作进一步结合元学习范式，构建了适应新型机器人平台的快速微调机制，为开源机器人生态的算法复用提供了重要参考。

数据集最近研究