MM-CondChain

Name: MM-CondChain
Creator: 阿里巴巴集团·Accio团队; 浙江大学
Published: 2026-03-13 01:59:56
License: 暂无描述

arXiv2026-03-13 更新2026-03-14 收录

下载链接：

https://huggingface.co/datasets/Accio-Lab/MM-CondChain

下载链接

链接失效反馈

官方服务：

资源简介：

MM-CondChain是由阿里巴巴Accio团队与浙江大学联合构建的多模态深度组合推理基准数据集，聚焦视觉 grounded 的多层条件链式推理任务。该数据集包含自然图像、数据图表和GUI轨迹三大视觉领域，通过可验证程序化中间表示(VPIR)技术确保每层条件的机械可验证性，采用智能合成流水线自动生成包含4+逻辑运算符、4+属性键的复杂条件链。其核心价值在于解决现有基准在组合深度和硬负样本方面的不足，为评估MLLMs在细粒度视觉验证、多元素推理及路径分支控制等复杂能力提供标准化测试平台，实验显示当前最强模型仅达53.33 Path F1。

MM-CondChain is a multimodal deep compositional reasoning benchmark dataset jointly constructed by the Accio Team of Alibaba Group and Zhejiang University, focusing on visual-grounded multi-layer conditional chained reasoning tasks. This dataset covers three visual domains: natural images, data charts, and GUI trajectories. It ensures the mechanical verifiability of each layer of conditions via the Verifiable Procedural Intermediate Representation (VPIR) technology, and adopts an intelligent synthesis pipeline to automatically generate complex conditional chains containing 4+ logical operators and 4+ attribute keys. Its core value lies in addressing the shortcomings of existing benchmarks in terms of compositional depth and hard negative samples, providing a standardized testbed for evaluating the complex capabilities of Multimodal Large Language Models (MLLMs) such as fine-grained visual verification, multi-element reasoning, and path branch control. Experiments show that even the current state-of-the-art models only achieve a Path F1 score of 53.33.

提供机构：

阿里巴巴集团·Accio团队; 浙江大学

创建时间：

2026-03-13

原始信息汇总

MM-CondChain 数据集概述

数据集基本信息

数据集名称：MM-CondChain
许可证：Apache 2.0 License
任务类别：视觉问答、图像文本到文本
语言：英语
标签：多模态、基准测试、组合推理、视觉推理、MLLM
规模类别：1K<n<10K

数据集简介

MM-CondChain 是一个用于多模态大语言模型（MLLMs）中视觉基础深度组合推理的基准测试。它是首个针对 MLLMs 中视觉基础深度组合推理的基准。

核心特性

多层组合推理：每个基准实例被组织成一个多层推理链，每一层都包含一个基于视觉证据的非平凡组合条件。
程序可验证性：采用基于 VPIR（可验证程序化中间表示）的智能合成流程，确保每个条件在机制上可验证。
配对困难负样本：合成器自动生成配对的 True-path 和 False-path 实例，两者仅在一个翻转的谓词上不同。
三个视觉领域：自然图像、数据图表和 GUI 轨迹。
确定性评估：所有实例均被表述为具有确定性答案的多项选择题，支持无需 LLM 作为评判者的可复现评估。

数据集统计

领域	图像/轨迹数量	样本数量
自然图像	398	796
图表	200	400
GUI	377（3,421 帧）	754
总计	975	1,950

每个图像/轨迹产生一个条件链，编译成一个配对的 True-path 和 False-path 实例。

数据集结构

MM-CondChain/ ├── README.md ├── data/ │ ├── natural.jsonl │ ├── chart.jsonl │ └── gui.jsonl └── images/ ├── natural/ │ └── *.jpg ├── chart/ │ └── .png └── gui/ └── <trajectory_id>/ └── <trajectory_id>_.png

每个 JSONL 文件中的样本包含以下字段： json { "id": "natural_001", "domain": "natural", "image": "images/natural/sa_24810.jpg", "true_path": { "full_instruction": "If the fisherman wearing a baseball cap is ...", "pseudocode": "# the fisherman wearing a baseball cap if (is_occluded and ...) ...", "correct_answer": "F1" }, "false_path": { "diverge_node": "qa_1", "full_instruction": "If the fisherman wearing a baseball cap is ...", "pseudocode": "# the fisherman wearing a baseball cap if (is_occluded and ...) ...", "correct_answer": "A1" } }

关于图像路径的说明：

对于自然图像和图表领域，image 是单个图像路径。
对于 GUI 领域，image 是一个轨迹文件夹路径。加载 GUI 图像时，需列出文件夹中按文件名排序的所有 PNG 文件。

实验结果概览

在多个 MLLMs 上的实验表明，即使最强的模型也仅达到 53.33 Path F1，证实深度组合推理仍然是一个根本性挑战。

主要模型性能如下（Avg F1）：

Gemini-3-Pro：53.33
GPT-5-0807：50.34
Gemini-3-Flash：48.31
Qwen3-VL-235B-Thinking：46.83
Qwen3.5-397B-A17B：45.90

引用

如果 MM-CondChain 对您的研究有帮助，请考虑引用： bibtex @article{shen2025mmcondchain, title={MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning}, author={Haozhan Shen and Shilin Yan and Hongwei Xue and Shuaiqi Lu and Xiaojun Tang and Guannan Zhang and Tiancheng Zhao and Jianwei Yin}, year={2025}, eprint={xxxx.xxxxx}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/xxxx.xxxxx}, }

相关链接

项目主页：https://Accio-Lab.github.io/MM-CondChain
arXiv 论文：https://arxiv.org/abs/xxxx.xxxxx
GitHub：https://github.com/Accio-Lab/MM-CondChain
排行榜：https://Accio-Lab.github.io/MM-CondChain#leaderboard

搜集汇总

数据集介绍

构建方式

在构建MM-CondChain数据集时，研究团队设计了一种基于可验证程序化中间表示（VPIR）的智能合成流程，以应对深度组合条件推理数据生成的挑战。该流程首先通过规划器（Planner）逐层生成组合条件，每一层均从视觉输入中提取结构化事实，并转化为可执行的Python类谓词。随后，验证器（Verifier）对生成的谓词进行机械验证，确保其真值可基于视觉证据确定。最后，合成器（Composer）将验证后的逻辑层编译为完整的指令链，并生成真路径与假路径配对实例，其中假路径通过最小扰动单个条件以触发早期终止，从而形成具有挑战性的负样本。这一方法在自然图像、数据图表和GUI轨迹三个视觉领域中得到实例化，确保了数据在逻辑上的严谨性与可扩展性。

特点

MM-CondChain数据集的核心特点在于其深度组合条件推理的评估框架。与现有基准测试不同，该数据集构建了多层推理链，每一层包含基于视觉证据的非平凡组合条件，涉及多个对象、属性或关系的复杂谓词。模型需在每一步细致感知图像，对多个视觉元素进行推理，并依据条件结果决定后续执行路径。数据集通过真路径与假路径的配对设计，引入了链式硬负样本，其中假路径仅通过最小扰动单个条件改变执行流向，要求模型具备精确的视觉接地与深度组合推理能力。此外，数据集的构建过程完全可编程验证，确保了评估的确定性与可重复性，无需依赖LLM作为评判者。

使用方法

使用MM-CondChain数据集进行评估时，研究者通常采用零样本设置，将每个实例以多选问题形式呈现给多模态大语言模型（MLLM）。模型需要解析嵌套的条件指令链，在每一层根据视觉输入验证组合条件，并决定继续执行或提前终止以回答辅助问题。评估指标包括真路径准确率、假路径准确率以及两者的调和平均数路径F1，以全面衡量模型在深度组合推理上的平衡性能。数据集的三个视觉领域——自然图像、数据图表和GUI轨迹——分别考验模型在不同模态下的视觉接地与逻辑跟踪能力。通过分析模型在不同深度和谓词复杂度下的表现，该数据集可作为诊断工具，揭示模型在顺序验证与组合推理方面的具体瓶颈。

背景与挑战

背景概述

随着多模态大语言模型在图形用户界面导航等复杂视觉工作流中的应用日益广泛，对模型执行依赖于视觉验证的深层组合条件推理能力的需求愈发迫切。MM-CondChain基准由阿里巴巴集团Accio团队与浙江大学的研究人员于2026年共同提出，旨在系统评估模型在视觉证据基础上进行深度组合条件链式推理的能力。该基准的核心研究问题是探究当前先进模型能否可靠地遵循需要逐层视觉验证的深层组合条件指令，其构建填补了现有基准在推理深度与困难负样本设计上的空白，为多模态推理领域提供了更为严谨和细粒度的评估工具，推动了模型在需要精确条件分支的真实场景中的应用研究。

当前挑战

MM-CondChain所针对的领域挑战在于评估多模态大语言模型进行视觉赋能的深度组合条件推理能力，这要求模型在每一步都需对基于多个对象、属性或关系的非平凡组合条件进行视觉验证，并根据结果决定后续执行路径，其复杂性远超浅层组合或独立约束任务。在数据集构建过程中，主要挑战在于如何大规模、可验证地生成此类工作流式数据。直接利用模型生成易导致逻辑冲突与不可验证的陈述。为此，研究团队提出了基于可验证程序化中间表示的智能合成流程，将逻辑构建与语言生成解耦，通过机械执行验证每个条件层的真值，并自然生成链式困难负样本，从而确保了数据在逻辑上的严谨性与可扩展性。

常用场景

经典使用场景

在视觉语言模型评估领域，MM-CondChain数据集被广泛用于检验模型在深度组合条件推理任务上的核心能力。其经典使用场景是构建一个多层级的视觉推理链，其中每一层都包含一个基于视觉证据的非平凡组合条件，这些条件由多个对象、属性或关系构成。模型必须细致感知图像，在每一步对多个视觉元素进行推理，并沿着由此产生的执行路径得出最终结果。该场景尤其适用于评估模型在需要连续视觉验证的复杂工作流中的表现，例如导航图形用户界面或执行多步骤视觉决策任务。

实际应用

在实际应用层面，MM-CondChain所针对的能力直接关联到智能体在真实环境中的可靠操作。例如，在自动化软件测试或机器人流程自动化中，智能体需要根据屏幕上动态出现的对话框（其颜色、文本内容等组合条件）来决定点击“允许”或“拒绝”。在辅助驾驶系统中，车辆需依据一连串视觉条件（如交通灯状态、行人位置、障碍物属性）来规划连续动作。该数据集通过涵盖自然图像、数据图表和GUI轨迹三大视觉领域，模拟了这些需要精细视觉验证和条件分支决策的现实任务，为开发能够在复杂、动态视觉环境中安全可靠运行的自主系统提供了关键的评估工具。

衍生相关工作

MM-CondChain的提出催生并衔接了多个研究方向的相关工作。在可编程验证评估方面，它与IFEval等工作形成对比，后者主要验证输出格式，而MM-CondChain则将验证前置用于保证数据逻辑正确性。在组合与逻辑视觉推理领域，它超越了MMComposition、Winoground等单层组合评估框架，以及VisuLogic、VER-Bench等视觉逻辑谜题数据集，首次将深度嵌套控制流作为核心评估维度。在复杂视觉指令遵循方面，它与MIA-Bench、MC-Bench等评估扁平约束的数据集形成互补，引入了执行路径会因条件验证失败而改变的动态评估范式。这些衍生工作共同深化了对多模态模型结构化推理能力的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集