EMMOE-100
收藏arXiv2025-03-12 更新2025-03-13 收录
下载链接:
https://silence143.github.io/emmoe.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
EMMOE-100数据集是一个包含100个复杂日常任务的集合,由浙江大学国际联合学院和浙江大学光电与信息工程系共同收集。该数据集具有多样化的任务属性、详细的过程注释、失败后的重计划以及两个用于语言模型训练的子数据集。数据集中的任务设计涵盖了短期任务、长期任务、开放式任务、逻辑任务和人类风格的任务,以模拟真实世界中的复杂场景和需求。
提供机构:
浙江大学国际联合学院(ZJU-UIUC Institute)和浙江大学光电与信息工程系(ISEE Department), 中国杭州
创建时间:
2025-03-12
搜集汇总
数据集介绍

构建方式
EMMOE-100数据集的构建采用了Fetch机器人与Habitat-Lab 2.0交互环境,从Replica Challenge中随机采样100个不同的场景,为每个场景设计日常移动操作任务,并手动控制Fetch机器人完成所有任务,将执行轨迹分解为离散子任务,最终获得966个子任务。每个子任务包括预定义的动作、目标和低级模型选择。此外,还收集了SFT和DPO子数据集以促进LMM与特定具身任务的对齐。
特点
EMMOE-100数据集具有以下特点:包含各种任务属性、详细的进程注释、失败后的重新计划以及SFT和DPO子数据集。它还设计了HOMIEBOT,这是一个复杂的代理系统,集成了不同级别的模型以及多个错误检测和适应机制。此外,该数据集还采用了三种新的指标来更好地评估具身任务执行过程和结果。
使用方法
EMMOE-100数据集的使用方法包括:将数据集中的任务分解为子任务,为每个子任务设计预定义的动作、目标和低级模型选择;使用SFT和DPO子数据集对LMM进行微调,以促进LMM与特定具身任务的对齐;使用HOMIEBOT系统进行具身任务执行,包括高级行为规划、低级执行和错误检测。此外,还可以使用数据集中的视频数据进行IL在机器人学习,使用文本和图像数据进行LMM训练。
背景与挑战
背景概述
随着大型语言模型(LLM)和具身智能(Embodied Intelligence)的快速发展,人类对开发受自然语言控制的自主家庭机器人这一目标越来越接近。然而,这一领域仍面临一些挑战,包括缺乏针对复杂机器人任务的统一基准、有限的评估方法和指标,以及LLM与移动操作轨迹之间的数据不兼容。为了解决这些问题,研究人员提出了EMMOE(Embodied Mobile Manipulation in Open Environments)这一综合基准,它要求代理理解用户指令并在连续空间中执行长期日常任务。EMMOE将高级和低级具身任务无缝集成到一个统一的框架中,并引入了三种新的指标以进行更全面的评估。此外,研究人员还收集了EMMOE-100数据集,该数据集具有各种任务属性、详细的进程注释、失败后的重新规划,以及两个子数据集用于LLM训练。最后,他们设计了HOMIEBOT,一个复杂的代理系统,包括具有直接偏好优化(DPO)的LLM、轻量级的导航和操作模型,以及多个错误检测机制。EMMOE-100数据集的创建时间是在2025年3月之后,主要研究人员包括Dongping Li、Tielong Cai、Tianci Tang等,来自浙江大学、伊利诺伊大学香槟分校和华盛顿大学。该数据集的创建旨在解决机器人学习方法在长期任务泛化和现实世界环境复杂性方面的局限性,并对相关领域产生了重要影响,推动了具身智能和机器人操作技术的发展。
当前挑战
EMMOE-100数据集在研究机器人自然语言控制和具身操作方面面临多项挑战。首先,缺乏一个全面的任务和基准,当前的任务与预期中的语言驱动的智能机器人之间仍存在差距。其次,现有的评估方法和指标不足以评估任务执行的因果依赖性和灵活性。最后,LLM的接地问题需要解决,尽管LLM在常识推理方面表现出色,但它们需要在当前环境中进行接地,以产生现实和实用的输出。此外,由于现实世界的不确定性和动态变化,LLM必须能够根据实时反馈进行及时调整。然而,LLM所需的对话数据与机器人所需的轨迹数据之间的不兼容性增加了接地的难度。这些挑战使得开发能够在开放环境中执行长期日常任务的机器人变得更加复杂,需要进一步研究和创新。
常用场景
经典使用场景
EMMOE-100 数据集被广泛用于评估和训练机器人执行日常任务的智能体。该数据集包含100个复杂的日常任务,这些任务需要智能体理解用户的自然语言指令,并在连续空间中执行长期的任务。这使得 EMMOE-100 成为研究机器人自然语言控制和长期任务规划的理想数据集。
解决学术问题
EMMOE-100 数据集解决了机器人研究领域中几个关键问题。首先,它提供了一个统一的基准,用于评估和训练高级和低级任务。其次,它提出了新的评估指标,如任务进度、成功结束率和成功重计划率,以更全面地评估智能体的性能。最后,它通过收集具有不同任务属性、详细过程注释和重计划过程的子数据集,解决了 LLM 和机器人轨迹数据之间的不兼容性问题。
衍生相关工作
EMMOE-100 数据集的发布促进了多个相关研究的发展。首先,它为研究机器人自然语言控制和长期任务规划提供了一个新的基准。其次,它推动了新的评估指标的开发,以更全面地评估智能体的性能。最后,它为研究 LLM 和机器人轨迹数据之间的不兼容性问题提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



