five

Multimodal Planning with Complex Constraints (MPCC)

收藏
arXiv2025-07-31 更新2025-08-02 收录
下载链接:
https://github.com/j-yyyyy/MPCC
下载链接
链接失效反馈
官方服务:
资源简介:
MPCC 数据集是一个针对多模态大语言模型在复杂约束下的规划能力进行系统评估的基准数据集。数据集由三个现实世界任务组成:航班规划、日历规划和会议规划,每个任务都有逐渐增加的约束难度。数据集包含三种类型的复杂约束:预算约束、时间约束和空间约束。数据集由真实场景生成,并通过人工筛选确保约束的准确性和组合多样性。MPCC 的目标是促进多模态规划领域的研究,并为多模态大语言模型提供更具挑战性的评估框架。

The MPCC dataset is a benchmark dataset for systematically evaluating the planning capabilities of multimodal large language models under complex constraints. It consists of three real-world tasks: flight planning, calendar planning, and meeting planning, each with gradually increasing constraint difficulty. The dataset includes three types of complex constraints: budget constraints, temporal constraints, and spatial constraints. It is generated from real-world scenarios and manually screened to ensure the accuracy of constraints and the diversity of their combinations. The goal of MPCC is to promote research in the field of multimodal planning and provide a more challenging evaluation framework for multimodal large language models.
提供机构:
哈尔滨工业大学
创建时间:
2025-07-31
原始信息汇总

MPCC: 多模态复杂约束规划基准数据集

数据集概述

  • 全称: Multimodal Planning with Complex Constraints (MPCC)
  • 类型: 多模态规划基准测试集
  • 应用领域: 多模态大语言模型(MLLMs)的复杂约束规划能力评估
  • 收录会议: ACM MM 2025

核心特点

  1. 约束建模: 显式建模复杂约束条件
  2. 评估指标: 提出可行性(feasibility)和最优性(optimality)双指标评估体系
  3. 任务多样性: 覆盖航班/日历/会议等规划场景
  4. 约束类型: 包含空间/时间/预算等多类约束条件

数据集构成

  • 领域划分:
    • Flight Planning (航班规划)
      • flight_plan_easy.parquet
      • flight_plan_medium.parquet
      • flight_plan_hard.parquet
    • Calendar Planning (日历规划)
    • Meeting Planning (会议规划)

评估方法

  • 推荐工具: VLMEvalKit (https://github.com/open-compass/vlmevalkit)
  • 评估对象: 支持13种开源/闭源MLLMs评估

获取方式

  • HuggingFace地址: https://huggingface.co/datasets/jyyyyy67/MPCC
  • 加载代码: python from datasets import load_dataset dataset = load_dataset("jyyyyy67/MPCC", data_files="[领域]/[文件名]")

联系方式

  • 维护者: Yiyan Ji
  • 邮箱: jiyiiiyyy@gmail.com
  • 问题反馈: GitHub Issues
搜集汇总
数据集介绍
main_image_url
构建方式
MPCC数据集的构建采用了系统化的方法,以确保其能够全面评估多模态大语言模型(MLLMs)在复杂约束条件下的规划能力。首先,研究团队从真实场景中收集数据,包括航班规划、日历规划和会议规划三个任务类别。每个任务类别进一步细分为三个难度级别(EASY、MEDIUM、HARD),以覆盖不同复杂度的约束条件。数据生成过程中,使用了代码生成器自动生成任务实例,并通过人工筛选确保约束条件的准确性和组合多样性。此外,为了增强多模态约束的有效性,数据集还结合了视觉和文本输入,要求模型进行跨模态联合推理。最后,通过两阶段的人工复核,确保数据的质量和一致性。
特点
MPCC数据集的主要特点在于其专注于复杂多模态约束条件下的规划任务评估。数据集包含三个核心任务类别,每个任务类别均设计了不同难度级别的约束条件,如预算约束、时间约束和空间约束。这些约束条件不仅模拟了真实世界中的规划复杂性,还通过逐步增加的难度级别,系统地评估模型的能力。此外,数据集通过视觉和文本的多模态输入,要求模型进行跨模态推理,进一步增强了评估的全面性。数据集的统计显示,其平均搜索空间从EASY级别的27增加到HARD级别的617,凸显了任务复杂度的显著提升。
使用方法
MPCC数据集的使用方法主要包括任务实例的生成和模型评估两个主要步骤。用户可以通过数据集提供的接口,访问不同任务类别和难度级别的规划问题。每个任务实例均包含视觉和文本输入,模型需要根据这些输入生成符合约束条件的规划方案。评估时,采用两种主要指标:可行方案率(Feasible Plan Rate)和最优方案率(Optimal Plan Rate)。可行方案率衡量模型生成符合所有约束条件的方案的能力,而最优方案率则进一步评估模型在可行方案中找到最优解的能力。用户还可以通过调整任务难度和约束条件,探索模型在不同复杂度下的表现。
背景与挑战
背景概述
Multimodal Planning with Complex Constraints (MPCC) 是由哈尔滨工业大学、香港大学和中南大学的研究团队于2025年提出的创新性基准测试,旨在系统评估多模态大语言模型(MLLMs)在复杂约束条件下的规划能力。该数据集聚焦于现实世界中的三大任务:航班规划、日历规划和会议规划,通过引入预算、时间和空间等多模态约束,填补了现有基准测试在复合约束评估方面的空白。MPCC的提出标志着多模态约束概念在规划问题中的首次形式化,为多模态环境下的任务规划提供了严谨的评估框架,推动了MLLMs在复杂现实场景中的应用研究。
当前挑战
MPCC面临的核心挑战体现在两个方面:领域问题层面,现有MLLMs在满足多模态复合约束时表现显著不足,闭源模型仅能生成21.3%的可行方案,而开源模型平均低于11%,尤其在约束复杂度增加时性能急剧下降;数据构建层面,需解决跨模态约束的精确对齐问题,包括视觉与文本信息的协同标注、可行解的稀疏性分布(平均仅占搜索空间的38.09%)以及人工校验中模态匹配的一致性保障(Kappa=0.83)。这些挑战揭示了当前模型在约束感知推理和跨模态协调方面的根本性局限。
常用场景
经典使用场景
在人工智能领域,特别是多模态大语言模型(MLLMs)的研究中,MPCC数据集被广泛用于评估模型在复杂多模态约束下的规划能力。该数据集通过模拟真实世界中的航班规划、日历规划和会议规划等任务,为研究者提供了一个系统化的评估框架。MPCC的独特之处在于其引入了预算、时间和空间等多模态约束,使得模型需要在满足多重限制条件下生成可行的规划方案。这一特性使得MPCC成为评估MLLMs在复杂现实场景中表现的重要工具。
实际应用
在实际应用层面,MPCC数据集可直接应用于多个现实场景。在航班规划中,模型需要综合考虑转机时间、预算限制等因素;在会议安排中,必须协调参与者的时间表和空间位置;在日历管理中,则需处理多参与者的时间冲突和资源分配。这些应用场景对智能助手的开发、企业资源规划系统的优化以及城市交通调度等实际问题的解决都具有重要参考价值。数据集通过模拟真实界面和约束条件,为开发更可靠的规划系统提供了测试基础。
衍生相关工作
MPCC数据集的推出催生了一系列相关研究工作。在方法论层面,研究者们开始探索更适合多约束场景的提示策略,如改进的思维链(Chain-of-Thought)方法;在模型架构方面,出现了专门针对约束推理优化的多模态大语言模型;在评估体系上,衍生出了更细粒度的约束满足度量化指标。这些工作共同推动了多模态约束规划这一新兴研究方向的发展,为构建更强大的现实世界规划系统奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作