CAN-DO

Name: CAN-DO
Creator: 新加坡科技设计大学, 阿里巴巴达摩院
Published: 2024-09-22 08:30:11
License: 暂无描述

arXiv2024-09-22 更新2024-09-26 收录

下载链接：

https://embodied-planning.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

CAN-DO数据集由新加坡科技设计大学和阿里巴巴达摩院联合创建，旨在评估大型多模态模型在复杂环境中的具身规划能力。该数据集包含400个多模态样本，每个样本包括自然语言用户指令、环境图像、状态变化和相应的行动计划。数据集涵盖常识知识、物理理解和安全意识等多个方面。创建过程中，研究团队结合真实场景图像和合成图像，确保数据多样性和复杂性。CAN-DO数据集主要应用于具身规划领域，旨在解决现有模型在视觉感知、理解和推理能力上的瓶颈问题。

The CAN-DO dataset was co-created by the Singapore University of Technology and Design and Alibaba DAMO Academy, aiming to evaluate the embodied planning capabilities of large multimodal models in complex environments. This dataset contains 400 multimodal samples, each consisting of natural language user instructions, environmental images, state changes, and corresponding action plans. The dataset covers multiple aspects including common-sense knowledge, physical comprehension, safety awareness and more. During the creation process, the research team combined real-scene images and synthetic images to ensure data diversity and complexity. The CAN-DO dataset is mainly applied in the field of embodied planning, aiming to resolve the bottleneck issues in the visual perception, understanding and reasoning capabilities of existing models.

提供机构：

新加坡科技设计大学, 阿里巴巴达摩院

创建时间：

2024-09-22

搜集汇总

数据集介绍

构建方式

CAN-DO数据集的构建旨在评估大型多模态模型在复杂和多样化场景中的具身规划能力。该数据集包含400个多模态样本，每个样本包括自然语言用户指令、描述环境的视觉图像、状态变化以及相应的行动计划。数据集的构建过程包括图像生成、指令和状态标注以及数据验证三个主要步骤。图像生成部分结合了真实场景图像和由DALL-E 3生成的合成图像，以确保场景的多样性和复杂性。指令和状态标注则通过手动设计问题和标注初始及目标状态来实现。数据验证阶段则由五名数据标注员参与，确保数据质量。

特点

CAN-DO数据集的特点在于其多样性和复杂性，涵盖了常识知识、物理理解和安全意识等多个方面。与现有的基准数据集相比，CAN-DO提供了更为灵活和多样化的规划场景，支持任何图像来描绘环境，从而增加了位置、物体和布局的多样性。此外，数据集中的用户指令可能不明确指定行动，要求模型理解用户意图，这增加了任务的挑战性。数据集的精细分析揭示了现有模型在视觉感知、理解和推理能力上的瓶颈，为模型的进一步改进提供了方向。

使用方法

CAN-DO数据集主要用于评估大型多模态模型在具身规划任务中的表现。使用该数据集时，模型需要根据提供的多模态输入（包括视觉图像和自然语言指令）生成行动计划。评估方法包括自动执行模型生成的计划，并检查结果状态是否与目标状态匹配。主要评估指标是计划的平均有效性，同时还会报告在常识、物理理解和安全等不同类别中的平均表现。通过这种评估方式，研究者可以诊断模型在视觉感知、理解和推理方面的瓶颈，并探索改进策略。

背景与挑战

背景概述

CAN-DO数据集由新加坡科技设计大学和阿里巴巴达摩院的研究团队于近期创建，旨在评估大型多模态模型在具身规划任务中的能力。该数据集包含400个多模态样本，每个样本包括自然语言用户指令、环境图像、状态变化及相应的行动计划，涵盖常识知识、物理理解和安全意识等多个方面。CAN-DO数据集的推出填补了现有基准数据集在复杂和多样化场景中的不足，为推动大型多模态模型在实际环境中的感知、推理和规划能力提供了重要资源。

当前挑战

CAN-DO数据集在构建过程中面临多重挑战。首先，现有模型在视觉感知、理解和推理能力上存在显著瓶颈，尤其是在处理复杂和模糊的规划问题时。其次，数据集的构建需要确保图像生成的高质量和可控性，以避免生成过于复杂或夸张的图像。此外，数据集的设计需涵盖多样化的场景和用户指令，以测试模型的泛化能力和应对现实世界问题的能力。最后，如何有效评估和提升模型在具身规划任务中的表现，仍是一个亟待解决的问题。

常用场景

经典使用场景

CAN-DO数据集的经典使用场景在于评估大型多模态模型在具身规划任务中的能力。通过提供自然语言的用户指令、视觉图像以及状态变化和相应的行动计划，该数据集能够模拟真实环境中的复杂场景。研究者可以利用CAN-DO数据集来测试模型在视觉感知、理解和推理方面的瓶颈，从而推动多模态模型在具身规划领域的进步。

衍生相关工作

CAN-DO数据集的推出激发了大量相关研究工作。首先，基于该数据集的分析，研究者们提出了NeuroGround框架，通过结合神经网络和符号规划引擎来增强模型的具身规划能力。其次，许多研究开始探索如何利用CAN-DO数据集来改进现有的多模态模型，如GPT-4V和Claude Opus，以提高其在具身规划任务中的表现。此外，CAN-DO还促进了多模态数据集的标准化和评估方法的统一，为未来的研究奠定了基础。

数据集最近研究