ActPlan-1K
收藏arXiv2024-10-05 更新2024-10-09 收录
下载链接:
https://github.com/HKUST-KnowComp/ActPlan-1K
下载链接
链接失效反馈官方服务:
资源简介:
ActPlan-1K是由香港科技大学和加州大学圣地亚哥分校联合创建的多模态规划基准数据集,旨在评估视觉语言模型在家庭活动中的程序规划能力。该数据集包含153个活动和1187个实例,每个实例包括自然语言任务描述和来自iGibson2模拟器的多个环境图像。数据集的创建过程结合了ChatGPT和iGibson2模拟器,通过将BDDL活动定义转换为自然语言描述并收集环境图像。ActPlan-1K主要应用于评估视觉语言模型在多模态任务中的程序规划能力,特别是在家庭活动和反事实场景中的应用。
ActPlan-1K is a multimodal planning benchmark dataset jointly created by The Hong Kong University of Science and Technology and the University of California, San Diego, which aims to evaluate the procedural planning capabilities of vision-language models in household activities. This dataset contains 153 activities and 1187 instances, each of which includes a natural language task description and multiple environmental images from the iGibson2 simulator. The dataset construction process combines ChatGPT and the iGibson2 simulator, by converting BDDL activity definitions into natural language descriptions and collecting environmental images. ActPlan-1K is mainly applied to evaluate the procedural planning capabilities of vision-language models in multimodal tasks, especially in household activity and counterfactual scenarios.
提供机构:
香港科技大学, 加州大学圣地亚哥分校
创建时间:
2024-10-05
原始信息汇总
ActPlan-1K 数据集概述
数据集定义
- 基础来源:基于BDDL语言,扩展自Behavior100。
- 定义过程:
- 将Behavior100中的活动描述翻译成自然语言。
- 使用ChatGPT生成特定程序和情境。
- 在igibson环境中标注初始和目标描述,生成新的BDDL案例。
- 将BDDL描述转换为自然语言任务描述。
- 存储位置:
./bddl/activity-definitions。
多模态数据收集
- 视觉信息:收集活动环境中的主要内容图像。
- 收集过程:
- 对反事实活动,根据上一步的活动定义采样场景实例。
- 对正常活动,使用Behavior100中的预定义活动。
- 在iGibson2模拟器中加载场景实例并录制视频,从中选择覆盖主要内容的图像。
- 示例:
./annotation/Beechwood_0_int/assembling_gift_baskets/0(正常活动)和./annotation/Beechwood_0_int/assembling_gift_baskets/1(反事实活动)。 - 数据下载:完整数据集包括所有标注和采样的urdf文件,可从此处下载。
自动评估
- 评估方法:使用自然语言描述和选定的图像集,提示视觉语言模型生成程序计划,并与黄金计划进行比较。
- 评估指标:
- LCS:最长公共子序列,详细信息在
./auto_lcs。 - Finetuned BLEURT score:微调的BLEURT分数,详细信息在
./bleu-cls。
- LCS:最长公共子序列,详细信息在
搜集汇总
数据集介绍

构建方式
ActPlan-1K数据集通过结合ChatGPT和iGibson2家庭活动模拟器构建,包含153个活动和1,187个实例。每个实例包含一个自然语言任务描述和多个来自模拟器的环境图像。数据集的构建过程包括将BDDL活动定义转换为自然语言描述,并在模拟器中采样环境图像。此外,通过ChatGPT生成反事实情景,并由人工标注者选择和定义这些情景,以确保其在模拟器中的可执行性。
特点
ActPlan-1K数据集的主要特点是其多模态性和反事实规划能力。数据集不仅包含文本描述,还结合了视觉信息,模拟真实家庭场景。此外,数据集设计了反事实活动,评估模型在受限情景下的推理能力,这在实际应用中尤为重要。数据集还提供了详细的黄金计划和自动评估指标,如BLEURT和LCS,以支持未来的研究。
使用方法
使用ActPlan-1K数据集时,研究者可以通过提供自然语言任务描述和环境图像,评估视觉语言模型生成程序性计划的能力。数据集提供了黄金计划和自动评估指标,研究者可以利用这些资源进行模型训练和性能评估。此外,数据集的反事实活动部分可以用于测试模型在复杂和动态环境中的适应性和推理能力。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在具身人工智能任务中得到了广泛应用,因其强大的推理能力而成为生成程序性计划的首选工具。然而,视觉语言模型(VLMs)在处理多模态任务输入时的表现仍未得到充分研究,尤其是其在反事实情境下的推理能力。为了评估VLMs在多模态和反事实方面的规划能力,ActPlan-1K数据集应运而生。该数据集由香港科技大学和加州大学圣地亚哥分校的研究团队创建,基于ChatGPT和家庭活动模拟器iGibson2构建,包含153种活动和1,187个实例。每个实例包含自然语言任务描述和模拟器中的多个环境图像,旨在评估VLMs在生成高质量程序性计划方面的能力。
当前挑战
ActPlan-1K数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何在多模态输入下生成符合常识且正确的程序性计划;二是数据集构建过程中遇到的挑战,包括如何有效地从模拟器中采样环境图像,以及如何确保反事实活动的定义和采样在实际应用中具有合理性。当前的VLMs在生成正常活动和反事实活动的程序性计划时仍存在困难,尤其是在处理长序列计划和复杂情境时。此外,数据集的低分辨率图像可能影响VLMs对环境的理解,限制了其在实际应用中的表现。
常用场景
经典使用场景
ActPlan-1K数据集的经典使用场景在于评估视觉语言模型(VLMs)在家庭活动中的程序规划能力。通过提供自然语言任务描述和模拟环境图像,该数据集要求模型生成符合人类常识的行动序列,以完成如组装礼品篮、清洁冰箱等复杂任务。这种多模态输入和输出设计,使得模型不仅需要理解文本指令,还需结合视觉信息进行精准规划。
实际应用
ActPlan-1K数据集在实际应用中具有广泛潜力,特别是在智能家居和机器人领域。通过训练和评估模型在家庭活动中的程序规划能力,可以开发出能够执行复杂任务的智能助手或机器人,如自动整理房间、准备餐食等。这些应用不仅提升了生活质量,还为家庭自动化和智能化提供了技术支持。
衍生相关工作
ActPlan-1K数据集的提出激发了大量相关研究工作。例如,基于该数据集的评估结果,研究者们开发了新的模型架构和训练方法,以提升视觉语言模型在程序规划任务中的表现。此外,该数据集还促进了反事实推理和多模态融合技术的研究,推动了家庭活动模拟和机器人规划领域的创新发展。
以上内容由遇见数据集搜集并总结生成



