five

language_table_train_145000_150000_augmented

收藏
Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/oxe-aug/language_table_train_145000_150000_augmented
下载链接
链接失效反馈
官方服务:
资源简介:
language_table_train_145000_150000_augmented数据集是OXE-AugE项目的一部分,基于原始OXE数据集进行了增强。该数据集包含了8种不同类型的机器人(google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer和ur5e),采用10帧/秒的帧率录制,共有5000个集,总计80307帧。数据集提供了丰富的特征,包括不同机器人的图像、末端执行器位置、关节角度等。此外,还包含了自然语言指令和任务索引等信息。
创建时间:
2025-11-12
原始信息汇总

language_table_train_145000_150000_augmented 数据集概述

基本信息

  • 数据集名称: language_table_train_145000_150000_augmented
  • 许可证: CC-BY-4.0
  • 任务类别: 机器人技术
  • 标签: 机器人技术、lerobot、oxe-auge、数据集

技术规格

  • 代码库版本: v3.0
  • 帧率: 10 FPS
  • 总片段数: 5,000
  • 总帧数: 80,307
  • 总视频数: 未指定

机器人平台

支持以下机器人平台:google_robot、images、jaco、kinova3、kuka_iiwa、panda、sawyer、ur5e

数据划分

  • 训练集: 5,000个片段

数据布局

  • 数据路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
  • 视频路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

图像特征

  • observation.images.google_robot: 增强的google_robot机器人图像 (360×640×3)
  • observation.images.image: 原始数据集中的源机器人图像 (360×640×3)
  • observation.images.jaco: 增强的jaco机器人图像 (360×640×3)
  • observation.images.kinova3: 增强的kinova3机器人图像 (360×640×3)
  • observation.images.kuka_iiwa: 增强的kuka_iiwa机器人图像 (360×640×3)
  • observation.images.panda: 增强的panda机器人图像 (360×640×3)
  • observation.images.sawyer: 增强的sawyer机器人图像 (360×640×3)
  • observation.images.ur5e: 增强的ur5e机器人图像 (360×640×3)

索引信息

  • episode_index: 当前片段在数据集中的索引 (int64)
  • frame_index: 当前帧在片段中的索引 (int64)
  • index: 全局帧索引 (int64)
  • task_index: 高层级任务ID (int64)

语言指令

  • natural_language_instruction: 描述任务的自然语言指令 (int32, 512维)

机器人状态

  • observation.ee_pose: 源机器人的末端执行器位置 (float32, 7维)
  • observation.joints: 源机器人的关节角度 (float32, 8维)
  • observation.state: 源机器人RLDS数据集中的状态字段副本 (float32, 2维)
  • timestamp: 当前帧在片段中的时间戳 (float32)

各机器人特定特征

每个机器人平台包含以下特征:

  • base_orientation: 绕Z轴逆时针旋转角度 (float32)
  • base_position: 基础平移位置 (float32, 3维)
  • ee_error: 增强机器人与原始机器人末端执行器差异 (float32, 7维)
  • ee_pose: 机器人末端执行器位置 (float32, 7维)
  • joints: 机器人关节位置 (float32, 7-8维)

相关资源

  • 网站: https://oxe-auge.github.io/
  • 项目仓库: https://github.com/GuanhuaJi/oxe-auge
  • 论文: https://arxiv.org/abs/2210.06407

引用要求

使用OXE-AugE数据集时,请同时引用本数据集和上游数据集。

上游数据集引用

bibtex @article{lynch2022interactive, title = {Interactive Language: Talking to Robots in Real Time}, author = {Corey Lynch and Ayzaan Wahid and Jonathan Tompson and Tianli Ding and James Betker and Robert Baruch and Travis Armstrong and Pete Florence}, journal = {arXiv preprint arXiv:2210.06407}, year = {2022}, url = {https://arxiv.org/abs/2210.06407} }

OXE-AugE数据集引用

bibtex @misc{ ji2025oxeaug, title = {OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning}, author = {Ji, Guanhua and Polavaram, Harsha and Chen, Lawrence Yunliang and Bajamahal, Sandeep and Ma, Zehan and Adebola, Simeon and Xu, Chenfeng and Goldberg, Ken}, year = {2025}, note = {Manuscript} }

搜集汇总
数据集介绍
构建方式
在机器人学习领域,数据集的构建质量直接影响模型泛化能力。该数据集基于Open X-Embodiment(OXE)框架,通过v3.0代码库对原始交互语言数据进行系统增强。构建过程采用多机器人仿真技术,将原始任务轨迹映射至八种异构机器人平台,包括Google Robot、Jaco等主流机型。每个增强实例均通过基座标系变换保持轨迹可达性,并计算末端执行器位姿误差以保障动作迁移的物理合理性。数据以10Hz采样频率组织成5000个完整任务片段,最终形成8万余帧的标准化Parquet格式存储。
特点
该数据集的核心价值体现在其跨 embodiment 的泛化特性。通过并行呈现八种机器人的增强观测数据,每个帧同时包含原始机器人图像与七种目标平台的仿真视觉反馈。数据结构涵盖360×640分辨率的视觉流、关节空间参数、末端位姿及自然语言指令等多模态信息。特别设计的基座旋转参数有效规避了相机视野遮挡问题,而统一的坐标变换机制确保了不同机械构型间的运动学一致性。这种密集的多机器人对齐标注为研究跨平台策略迁移提供了前所未有的实验基础。
使用方法
对于机器人策略学习研究,该数据集支持端到端的视觉语言动作联合训练。研究者可通过加载Parquet文件直接获取时序对齐的多机器人观测序列,其中自然语言指令维度为512的嵌入向量可直接接入预训练语言模型。训练时可选择特定机器人的图像通道与对应关节参数构建闭环控制,亦可利用ee_error字段进行跨 embodiment 的残差学习。数据集采用分块存储架构,支持流式加载大规模训练样本,其标准化的数据布局便于集成至主流强化学习框架进行分布式训练。
背景与挑战
背景概述
在机器人学习领域,跨本体策略泛化是提升智能体适应性的核心课题。language_table_train_145000_150000_augmented数据集作为OXE-AugE项目的重要组成部分,由Guanhua Ji等研究者于2025年构建,依托Open X-Embodiment(OXE)生态的v3.0代码库。该数据集通过整合谷歌机器人、Jaco、Kinova3等八种异构机器人平台的多模态数据,致力于解决自然语言指令到机器人动作的跨本体映射问题,其5000条任务轨迹与8万余帧增强数据为具身智能研究提供了规模化实验基础。
当前挑战
跨本体机器人学习需应对异构硬件间运动学与动力学差异的建模挑战,该数据集通过末端执行器误差补偿与视角变换增强,力图克服不同机械臂工作空间与观测视角的固有偏差。构建过程中面临多源数据对齐的复杂性,需在保持原始任务语义的前提下,对八类机器人分别生成符合物理约束的增强轨迹,同时确保自然语言指令与增强后动作的空间一致性,这种大规模跨平台数据合成对运动学求解与场景渲染提出了极高要求。
常用场景
经典使用场景
在机器人学习领域,language_table_train_145000_150000_augmented数据集通过多机器人视觉-语言轨迹数据,为跨 embodiment 策略学习提供了标准化实验平台。其核心价值在于整合了八种主流机器人平台的增强图像与运动轨迹,配合自然语言指令,构建了从语言理解到动作执行的闭环训练环境。研究者可基于该数据集开发通用型机器人策略模型,实现指令驱动的物体操纵任务仿真与验证。
实际应用
面向工业自动化与家庭服务机器人场景,该数据集支撑了智能抓取系统的快速部署。基于增强后的多机器人轨迹数据,工程师可构建适应不同工作环境的抓取策略库,显著缩短新场景下的调试周期。在物流分拣领域,该数据集衍生的视觉-语言模型能准确解析“将红色方块放入左侧容器”等复杂指令,实现动态环境下的精准操作。
衍生相关工作
该数据集催生了系列跨 embodiment 策略学习的重要研究,例如基于对比学习的多机器人动作嵌入方法。通过解耦机器人形态特征与任务语义,研究者开发出适用于未知机械臂的零样本策略迁移框架。相关工作进一步拓展至多模态指令跟随系统,构建起从仿真到实物的标准化评估流程,为机器人通用智能研究提供了关键基础设施。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作