Galaxea Open-World Dataset
收藏arXiv2025-08-31 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/datasets/OpenGalaxea/Galaxea-Open-World-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Galaxea Open-World Dataset是一个大规模、高质量的机器人行为数据集,数据采集于真实的居住和工作环境中。数据集包含100000条轨迹,覆盖150个任务类别,在50个不同的现实场景中执行。这些演示涵盖了1600多个独特的物体和58个操作技能,从精细的捡放操作到协调的整体操作。所有数据都是使用一致的机器人实体记录的,确保数据集中感知、行动和语言注释的完全对齐。
The Galaxea Open-World Dataset is a large-scale, high-quality robotic behavior dataset collected in real-world residential and working environments. The dataset contains 100,000 trajectories, which cover 150 task categories and were executed across 50 distinct real-world scenarios. These demonstrations encompass over 1,600 unique objects and 58 manipulation skills, ranging from delicate pick-and-place operations to coordinated whole-body manipulation. All data was recorded using a consistent robotic platform, ensuring full alignment of perception, action, and language annotations within the dataset.
提供机构:
Galaxea Team
创建时间:
2025-08-31
搜集汇总
数据集介绍

构建方式
在机器人学习领域,高质量数据集的构建对模型泛化能力具有决定性影响。Galaxea开放世界数据集通过异构远程操作系统,在真实人类生活与工作场景中系统采集了500小时双手机器人操作数据。数据采集遵循严格的三项原则:视觉可观测性确保任务关键对象始终处于视野范围内,质量优先策略针对复杂任务采用分阶段采集流程,语言 grounding 机制为每个子任务标注结构化描述。所有数据均采用统一机器人本体,并经过多级质量筛选,最终形成包含150类任务、50种场景的标准化数据集。
使用方法
该数据集支持分层级机器人学习范式,在G0双系统框架中发挥核心作用。研究者可将其用于三阶段训练流程:首先利用跨本体数据进行通用知识预训练,继而通过该数据集进行单本体专业化训练以适配目标机器人动力学特性,最后基于高质量任务演示进行特定技能微调。数据集提供的子任务级标注可直接用于训练视觉语言模型的规划能力,而多视角视觉流与本体状态数据则为视觉语言动作模型的动作生成提供监督信号。这种结构化设计使数据集既能支撑端到端策略学习,也适用于分层决策系统的独立模块训练。
背景与挑战
背景概述
Galaxea开放世界数据集由Galaxea团队于2025年推出,旨在解决机器人视觉语言动作模型在真实环境中泛化能力不足的核心问题。该数据集包含500小时在人类生活与工作场景中采集的高质量机器人行为数据,涵盖150种任务类型和50种环境场景,采用统一机器人本体确保数据一致性。其创新性体现在首次实现大规模开放环境下的移动操作数据标准化采集,通过精细的语言标注与多模态对齐机制,为具身智能研究提供了关键基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,需突破现有机器人数据集在环境真实性与任务复杂度上的局限,解决模型从受控环境向开放世界迁移时的领域鸿沟问题;在构建过程中,需克服异构环境数据采集的工程难题,包括保持机器人本体一致性、实现精细化的子任务级语言标注,以及处理真实场景中动态变化的物理约束与安全要求。
常用场景
经典使用场景
在具身智能研究领域,Galaxea开放世界数据集为机器人视觉语言动作模型的训练提供了关键支撑。该数据集通过统一机器人平台在真实人类环境中采集的500小时行为数据,覆盖150种任务类型和50个多样化场景,其精细的子任务级语言标注特性使其成为评估长时程任务规划与零样本泛化能力的基准平台。研究人员可基于该数据集构建从桌面操作到移动操控的完整测试体系,验证模型在开放环境中的适应性与鲁棒性。
解决学术问题
该数据集有效解决了机器人学习中的领域适应难题,通过单 embodiment 一致性数据消除了跨平台训练导致的动作空间偏差。其真实场景采集特性显著缩小了仿真环境与物理世界的语义鸿沟,为研究开放世界下的持续学习机制提供了实验基础。数据集支撑的G0双系统框架证明了单 embodiment 预训练对提升动作精度与指令跟随能力的关键作用,为异构机器人知识迁移提供了新的方法论启示。
实际应用
在家庭服务机器人领域,该数据集支撑的模型已实现床铺整理、微波炉操作等复杂家居任务的自主执行。其跨场景泛化能力使得机器人能在住宅、餐饮等真实环境中完成物品归位、设备操控等日常服务。通过双系统架构的异步规划与执行机制,机器人可同时处理2Hz的子任务指令与200Hz的实时控制,为养老陪护、智能家居等场景提供了可靠的技术方案。
数据集最近研究
最新研究方向
在具身智能领域,Galaxea开放世界数据集正推动机器人视觉-语言-动作模型的前沿探索。该数据集凭借真实环境采集的500小时单 embodiment 数据与细粒度语言标注,为双系统架构G0提供了关键训练基础。当前研究聚焦于跨 embodiment 预训练与单 embodiment 专项训练的协同机制,通过三阶段课程学习策略解决现实场景中的长周期任务泛化问题。随着开放式移动操作需求的增长,该数据集在零样本泛化、小样本学习等方向的应用正成为行业热点,其高保真场景数据为突破仿真到实物的领域鸿沟提供了重要基准。
相关研究论文
- 1通过Galaxea Team · 2025年
以上内容由遇见数据集搜集并总结生成



