five

Open-Galaxea-Dataset

收藏
Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/OpenGalaxea/Open-Galaxea-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Galaxea开放世界数据集:包含超过500小时的真实世界移动操作数据,采用统一机器人实体收集,具有细粒度的子任务语言注释,适用于住宅、厨房、零售和办公室环境。数据集以RLDS格式存储。

Galaxea Open-World Dataset: Containing over 500 hours of real-world mobile manipulation data collected by a unified robotic entity, this dataset features fine-grained subtask language annotations and is tailored for residential, kitchen, retail, and office environments. It is stored in RLDS format.
创建时间:
2025-08-23
原始信息汇总

Open-Galaxea-Dataset 数据集概述

基本信息

  • 许可证: CC BY-NC-SA 4.0
  • 语言: 英语、中文
  • 规模: 超过1TB
  • 标签: 真实世界、双臂、全身控制、操作

关键特性

  • 500+小时的真实世界移动操作数据
  • 所有数据使用统一机器人本体收集以确保一致性
  • 细粒度的子任务语言标注
  • 覆盖住宅厨房零售办公室场景
  • 数据集采用RLDS格式

数据集结构

数据集按时间分为四个等量部分,并提供小型样本数据集用于快速入门:

rlds ├── part1_r1_lite ├── part2_r1_lite ├── part3_r1_lite ├── part4_r1_lite └── sample

数据模式

数据集包含以下结构:

元数据

  • episode_metadata: 包含原始数据文件路径

步骤数据

  • is_first: 是否为片段首步
  • is_last: 是否为片段末步
  • language_instruction: 语言指令(格式:"高级指令@中文低级指令@英文低级指令")

观测数据

  • 运动状态: 基座速度、左右夹爪状态
  • 视觉数据: 左右腕部深度相机、头部RGB相机、左右腕部RGB相机
  • 关节数据: 左右臂关节位置与速度、躯干关节位置
  • 历史动作: 最近动作记录

动作数据

  • 26维动作向量: 包含左右臂(各6维)、左右夹爪(各1维)、躯干(6维)和基座(6维)的控制指令

使用示例

提供Python脚本示例,可将RLDS数据集中的片段转换为MP4视频格式(头部相机视角)。

引用信息

使用本数据集需遵循CC BY-NC-SA 4.0许可,并引用相关论文。

搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作研究领域,数据集的构建质量直接影响模型性能。Open-Galaxea-Dataset通过统一机器人平台在真实世界环境中系统采集数据,涵盖住宅、厨房、零售和办公四大场景。采用精细化的子任务语言标注体系,每个步骤均包含高中低三层指令描述,确保数据的一致性与丰富性。数据以RLDS格式存储,包含超过500小时的双臂全身控制操作记录,为机器人学习提供高质量的真实交互数据。
使用方法
研究者可通过TensorFlow Datasets库直接加载RLDS格式数据集,利用提供的示例脚本将 episodes 转换为可视化的MP4视频序列。数据集支持端到端的机器人策略学习,用户可基于多模态观测数据训练动作生成模型。语言指令的层次化结构允许进行从高级任务规划到低级运动控制的跨层次学习。数据集的模块化设计支持按需加载特定场景数据,为真实世界机器人操作研究提供标准化实验基准。
背景与挑战
背景概述
机器人操作数据集Open-Galaxea-Dataset由Galaxea团队于2025年构建,专注于开放世界环境下的移动操作任务。该数据集通过统一机器人平台采集超过500小时的真实世界交互数据,涵盖住宅、厨房、零售和办公四大场景。其核心研究目标在于推动全身协同控制与双臂操作算法的演进,通过细粒度语言标注与多模态传感器数据融合,为具身智能系统提供高价值训练资源。该数据集对机器人学习范式的革新具有深远影响,为复杂环境下的自主决策与任务执行奠定了数据基础。
当前挑战
该数据集致力于解决开放世界移动操作中的泛化性与适应性挑战,包括动态环境下的多任务协调、长时程操作序列的稳定性维持以及跨场景的技能迁移。构建过程中面临多模态数据同步与校准的技术难题,需确保双视角深度相机、关节状态与视觉数据的时空一致性。大规模真实数据采集涉及机器人安全控制与故障恢复机制,同时细粒度语言标注需克服多语言指令的语义对齐与动作边界划分的复杂性。
常用场景
经典使用场景
在机器人操作学习领域,Open-Galaxea-Dataset作为大规模真实世界移动操作数据集,其经典使用场景集中于双机械臂全身协同控制任务的训练与验证。研究人员利用其500小时的多模态数据,涵盖住宅、厨房、零售和办公四大场景,通过精细的子任务语言标注指导机器人完成复杂的物体抓取、环境导航和工具使用等复合操作任务。该数据集通过统一的机器人本体架构确保数据一致性,为端到端模仿学习和强化学习算法提供了丰富的训练样本。
解决学术问题
该数据集有效解决了移动操作机器人领域缺乏大规模真实世界数据的核心问题,为研究社区提供了标准化评估基准。其多模态传感器数据与分层语言指令的对应关系,使得研究者能够探索视觉-语言-动作的联合表征学习机制。通过提供完整的全身控制维度数据,该数据集促进了高维连续动作空间下的策略优化研究,并推动了具身智能在复杂环境中的泛化能力发展,对机器人自主操作系统的理论突破具有重要意义。
实际应用
在实际应用层面,该数据集支撑的服务机器人系统已展现出在家庭环境中的实用价值。基于该数据训练的模型能够执行厨房备餐、物品整理等日常任务,其双机械臂协调能力特别适用于需要双手操作的复杂场景。在零售环境中,数据集支持的机器人系统可实现商品摆放和库存管理功能,而办公场景下的文档处理与设备操作应用则体现了其跨领域适应性。这些应用显著提升了服务机器人在真实环境中的任务完成度和人机协作效率。
数据集最近研究
最新研究方向
在机器人操作与全身控制领域,Open-Galaxea-Dataset凭借其500小时真实世界双臂移动操作数据,正推动视觉语言动作模型的前沿探索。该数据集涵盖住宅、厨房、零售与办公多场景,配备细粒度语言标注与统一机器人本体,为具身智能研究提供了前所未有的规模与一致性。当前研究聚焦于多模态融合策略,通过结合深度视觉感知与关节运动数据,探索开放世界中的长期任务规划与自适应操作能力。该数据集不仅加速了双系统VLA模型的开发,更在家庭服务与工业自动化领域展现出广泛的应用潜力,为机器人泛化能力的突破奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作