language_table_train_115000_120000_augmented

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/oxe-aug/language_table_train_115000_120000_augmented

下载链接

链接失效反馈

官方服务：

资源简介：

language_table_train_115000_120000_augmented是一个机器人增强数据集，包含多种机器人的增强图像、关节角度、末端执行器位置等信息，共有5000个剧集，79828帧，适用于机器人领域的任务学习。

创建时间：

2025-11-09

原始信息汇总

language_table_train_115000_120000_augmented 数据集概述

基本信息

数据集名称: language_table_train_115000_120000_augmented
许可证: CC-BY-4.0
代码库版本: v3.0
帧率: 10 FPS
总情节数: 5,000
总帧数: 79,828
视频总数: 未指定

机器人类型

google_robot
images
jaco
kinova3
kuka_iiwa
panda
sawyer
ur5e

数据划分

训练集: 5,000个情节

数据布局

数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

图像特征

observation.images.google_robot: 360×640×3，google_robot机器人的增强图像
observation.images.image: 360×640×3，原始数据集中源机器人的图像
observation.images.jaco: 360×640×3，jaco机器人的增强图像
observation.images.kinova3: 360×640×3，kinova3机器人的增强图像
observation.images.kuka_iiwa: 360×640×3，kuka_iiwa机器人的增强图像
observation.images.panda: 360×640×3，panda机器人的增强图像
observation.images.sawyer: 360×640×3，sawyer机器人的增强图像
observation.images.ur5e: 360×640×3，ur5e机器人的增强图像

索引特征

episode_index: 当前情节在数据集中的索引
frame_index: 当前帧在其情节中的索引
index: 整个数据集的全局帧索引
task_index: 高层级任务的整数ID

语言指令

natural_language_instruction: 描述任务的自然语言指令

机器人状态特征

observation.ee_pose: 源机器人的末端执行器位置
observation.joints: 源机器人的关节角度
observation.state: 源机器人RLDS数据集中状态字段的副本

各机器人特定特征

每个机器人类型（google_robot、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e）包含：

base_orientation: 绕z轴逆时针旋转，使机器人不遮挡相机
base_position: 基础平移，确保轨迹可实现
ee_error: 增强机器人与原始机器人之间的末端执行器差异
ee_pose: 机器人的末端执行器位置
joints: 机器人的关节位置

时间特征

timestamp: 当前帧在情节中的时间戳（秒）

引用政策

使用OXE-AugE数据集时，请同时引用本数据集和上游数据集。

上游数据集引用

bibtex @article{lynch2022interactive, title = {Interactive Language: Talking to Robots in Real Time}, author = {Corey Lynch and Ayzaan Wahid and Jonathan Tompson and Tianli Ding and James Betker and Robert Baruch and Travis Armstrong and Pete Florence}, journal = {arXiv preprint arXiv:2210.06407}, year = {2022}, url = {https://arxiv.org/abs/2210.06407} }

OXE-AugE数据集引用

bibtex @misc{ ji2025oxeaug, title = {OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning}, author = {Ji, Guanhua and Polavaram, Harsha and Chen, Lawrence Yunliang and Bajamahal, Sandeep and Ma, Zehan and Adebola, Simeon and Xu, Chenfeng and Goldberg, Ken}, year = {2025}, note = {Manuscript} }

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建方式直接影响模型的泛化能力。language_table_train_115000_120000_augmented基于OXE-AugE框架，通过数据增强技术将原始交互语言任务扩展到八种不同构型机器人。该数据集采用分块存储结构，将5000个训练片段组织为Parquet格式文件，每个片段包含79,828帧以10fps采样的时序数据。增强过程中对各类机器人末端执行器位姿进行坐标变换，确保动作轨迹在跨机器人迁移时保持物理可行性。

特点

该数据集最显著的特点是实现了多机器人构型的视觉-语言对齐。每个样本同时包含原始机器人图像和七种增强机器人的仿真图像，所有视觉数据均保持360×640×3的统一分辨率。数据集提供完整的机器人状态观测，包括关节角度、末端位姿及自然语言指令，其中语言指令采用512维向量编码。通过记录各增强机器人与原始机器人的末端误差，为跨构型策略学习提供了精确的监督信号。

使用方法

研究人员可通过HuggingFace平台直接加载该数据集进行跨构型机器人策略训练。数据以标准Parquet格式存储，支持通过chunk索引和file索引快速定位所需片段。典型应用流程包括：解析自然语言指令作为任务描述，利用多机器人图像数据训练视觉编码器，结合末端位姿误差信号优化动作策略。该数据集特别适用于研究语言引导的跨机器人模仿学习，可通过对比不同构型机器人的执行效果来评估策略的泛化性能。

背景与挑战

背景概述

语言交互机器人学习领域近年来蓬勃发展，促使大规模跨平台数据集应运而生。该数据集基于OXE-AugE项目构建，源自2022年谷歌研究团队提出的交互式语言机器人框架，通过增强原始语言指令数据，拓展了多机器人平台间的知识迁移能力。其核心研究问题聚焦于如何利用自然语言指令实现跨机器人平台的通用策略学习，通过整合八种主流机器人平台的运动轨迹与视觉数据，为机器人模仿学习与指令跟随任务提供了标准化基准。这一数据资源的建立显著推动了具身智能领域从单一平台向异构系统泛化的研究进程。

当前挑战

跨平台机器人策略学习面临本体结构差异导致的运动映射难题，不同机械臂的关节自由度与工作空间存在显著异质性。数据集构建过程中需解决轨迹可行性与视觉遮挡平衡问题，通过基座标系变换确保增强轨迹在目标机器人可达空间内的物理合理性。多源传感器数据的时空对齐要求精确的时间戳同步与坐标统一，而自然语言指令的语义一致性维护则需要克服不同机器人动作描述的歧义性。数据增强时还需保持原始任务语义不变性，避免因机器人替换引发任务目标的偏移。

常用场景

经典使用场景

在机器人学习领域，language_table_train_115000_120000_augmented数据集通过多机器人平台的视觉-语言对齐数据，为跨 embodiment 策略学习提供了关键支撑。该数据集整合了八种主流机器人平台的增强轨迹数据，包含自然语言指令与对应动作的映射关系，使得研究者能够训练出适应不同机械结构的通用策略模型。其经典应用体现在通过统一的图像序列和末端执行器位姿数据，构建跨平台的动作泛化能力。

解决学术问题

该数据集有效解决了机器人学习中的跨平台泛化难题，通过数据增强技术将单一任务轨迹适配到多类机器人构型。其核心价值在于突破了传统方法对特定机器人硬件的依赖，为视觉语言导航、多模态策略迁移等研究提供了标准化基准。这种数据驱动的泛化范式显著降低了机器人策略部署的硬件门槛，推动了 embodied AI 领域的可复现性研究。

衍生相关工作

该数据集衍生出多项跨 embodiment 学习的代表性研究，包括基于视觉语言预训练的通用策略架构、多机器人协同的元学习框架等。相关研究通过利用数据集中丰富的增强轨迹，开发出适应动态环境的自适应控制算法。这些工作进一步拓展了数据集中语言-动作关联模型的应用边界，形成了从仿真到实物的完整技术链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集