LUMOS
收藏arXiv2025-03-13 更新2025-03-15 收录
下载链接:
http://lumos.cs.uni-freiburg.de
下载链接
链接失效反馈官方服务:
资源简介:
LUMOS数据集是由德国弗莱堡大学等机构的研究人员创建的一种语言条件模仿学习框架下的数据集。该数据集通过在潜在空间中学习世界模型,实现了对真实世界机器人的零样本迁移。数据集的创建基于大量的非结构化游戏数据,并包含少量的语言注释。它支持机器人执行由自然语言指令指定的长期任务,并通过结合潜在空间中的世界模型探索和潜在规划,减少了协变量偏移,提高了长期性能。
The LUMOS dataset is a resource developed under the language-conditioned imitation learning framework, constructed by researchers from institutions such as the University of Freiburg in Germany and other relevant organizations. By learning world models in the latent space, this dataset enables zero-shot transfer to real-world robotic platforms. The dataset is built upon a large corpus of unstructured game data, supplemented with a small set of language annotations. It supports robots in executing long-term tasks specified via natural language instructions, and reduces covariate shift while improving long-term task performance by combining latent-space world model exploration and latent planning.
提供机构:
德国弗莱堡大学, 英国牛津大学, 德国纽伦堡技术大学
创建时间:
2025-03-13
搜集汇总
数据集介绍

构建方式
LUMOS数据集的构建基于语言条件的多任务模仿学习框架,旨在通过在学习的世界模型的潜在空间中进行长时间的学习和实践来学习技能。该数据集使用无结构的玩耍数据进行学习,其中不到1%的数据带有后见之明的语言注释,但在测试时可以通过语言命令进行控制。LUMOS通过结合潜在规划和基于图像和语言的后见之明目标重标记,在训练过程中实现了连贯的长距离性能,并通过优化在世界模型潜在空间中定义的内在奖励来减少协变量偏移。
特点
LUMOS数据集的特点在于其在长距离任务上的出色表现,尤其是在处理由自然语言指定的复杂、长距离机器人任务时。该数据集在CALVIN基准测试中优于之前的基于学习的方法,并且能够将完全离线学习到的策略零样本转移到现实世界中。此外,LUMOS能够在没有在线学习或微调的情况下,根据抽象的语言指令处理现实场景中的复杂、长距离机器人任务。
使用方法
LUMOS数据集的使用方法包括两个主要阶段:首先,从无标签的玩耍数据集中学习一个世界模型;其次,在一个演员-评论家智能体中训练一个目标条件策略,该智能体在学习的世界模型的潜在空间中学习。在测试时,策略根据世界模型从当前观察中推断的潜在状态和用户的语言命令进行操作。LUMOS的数据集、代码和视频可在http://lumos.cs.uni-freiburg.de获得。
背景与挑战
背景概述
LUMOS数据集是一个用于机器学习领域的语言条件多任务模仿学习框架,旨在解决机器人执行长期任务的问题。该数据集由德国弗莱堡大学、牛津大学和纽伦堡工业大学的研究人员于2025年提出。LUMOS通过在学习的世界模型的潜在空间中进行长期回滚训练,将学习到的技能零样本迁移到真实机器人中。该数据集的研究重点是探索如何通过自然语言指令来指导机器人执行复杂、长期的机器人任务,并在真实场景中实现零样本迁移。LUMOS在CALVIN基准测试中表现出色,超越了之前的学习方法,成为该领域的重要研究工具。
当前挑战
LUMOS数据集面临的主要挑战包括:1) 长期任务的语言条件模仿学习:如何在保证长期性能的同时,有效地减少协变量偏移,使机器人能够理解和执行由自然语言指令指定的复杂、长期任务。2) 真实世界迁移:如何在保证零样本迁移的同时,减少现实世界和模拟环境之间的差距,使学习到的策略能够在真实环境中有效地执行。
常用场景
经典使用场景
在机器人领域,LUMOS 数据集被广泛应用于语言条件下的多任务模仿学习框架。它通过在学习的世界模型的潜在空间中进行大量长期回溯来学习技能,并将这些技能零样本转移到真实机器人上。通过在学习的世界模型的潜在空间中进行策略上的学习,LUMOS 算法减轻了大多数离线模仿学习方法所面临的策略诱导分布偏移问题。LUMOS 从少于 1% 的后见语言注释的非结构化游戏数据中学习,但在测试时可以用语言命令进行控制。通过结合潜在规划和基于图像和语言的回顾性目标重新标记,LUMOS 在训练期间实现了连贯的长期性能,并通过在多个时间步长上优化世界模型潜在空间中定义的内在奖励,有效地减少了协变量偏移。在困难的长期 CALVIN 基准测试中,LUMOS 在链式多任务评估中优于先前的基于学习的方法。
解决学术问题
LUMOS 数据集解决了在机器人领域中长期任务的自然语言指定问题。当完整的任务规范可用时,强化学习 (RL) 方法可以用来通过试错来产生策略。然而,典型的 RL 算法可能需要数百万个剧集来学习良好的策略,这在许多机器人任务中是不可行的。此外,许多任务难以指定为奖励函数,需要大量的工程工作才能仅从 RL 中提取合理的已学习技能。模仿学习通过直接从任务演示中学习来提供另一种选择。天真方法如行为克隆 [2] 根据演示数据预测状态下的动作,并在部署期间应用它们。然而,这些方法忽略了决策制定的顺序性质。由于每个观察都依赖于先前的动作,因此标准统计机器学习中的独立性假设被打破。Ross 和 Bagnell [3] 证明了具有误差 ϵ 的行为克隆策略具有预期遗憾 O(T 2ϵ),随着决策范围 T 的平方增长而增长。直观地说,因为行为克隆策略不是在其自己的分布下训练的,所以小的预测误差会累积,将策略从分布中拉出,进入未见状态,这对于长期任务来说尤其成问题,因为遗憾增长呈平方关系。LUMOS 通过在模拟环境中进行策略上的训练来缓解离线学习中的分布偏移问题。然而,模拟器可能不可用或受到 sim2real 问题的影响,其中在模拟中表现良好的策略无法泛化到现实世界,因为“现实差距”——真实和模拟动态之间的不匹配。世界模型提供了对手动创建的模拟器的有希望的替代方案 [5],通过在多个步骤中预测状态或观察,条件为来自真实轨迹的动作来近似动态。通过将观察压缩到捕获时间上下文的潜在表示中,当代世界模型 [6]、[7] 实现了数千个时间步长的逼真预测。在世界的潜在空间中学习使策略制定能够在策略制定中启用,减轻了分布偏移并避免了由于模拟器错误指定而造成的现实差距。
衍生相关工作
LUMOS 数据集衍生了相关的经典工作,如 DITTO [8],这是一种基于世界模型的模仿学习算法,它在世界模型潜在空间中惩罚策略轨迹与专家轨迹之间的在线策略偏差。具体来说,它定义了一个内在奖励,该奖励衡量代理回溯与专家演示之间的偏差,并使用演员-评论家 RL 优化此内在奖励。优化此内在奖励会诱导出对长期回溯中的错误具有鲁棒性的模仿学习,从而有效地减轻了协变量偏移。LUMOS 还建立在 DITTO 的基础上,通过将潜在规划与基于图像和语言的回顾性目标重新标记相结合,进一步增强了演员-评论家代理的长期性能。此外,LUMOS 还受到 HULC [10] 的启发,这是一种分层语言条件模仿学习框架,使用对比学习将语言指令接地到机器人动作,以及其他改进,如使用多模态变压器编码器(在下面讨论)。LUMOS 还通过将潜在规划网络集成到控制循环中,并在接近操作目标时仅依赖于学习的 HULC 控制器,进一步提高了长期性能。
以上内容由遇见数据集搜集并总结生成



