MM-CondChain
收藏MM-CondChain 数据集概述
数据集基本信息
- 数据集名称:MM-CondChain
- 许可证:Apache 2.0 License
- 任务类别:视觉问答、图像文本到文本
- 语言:英语
- 标签:多模态、基准测试、组合推理、视觉推理、MLLM
- 规模类别:1K<n<10K
数据集简介
MM-CondChain 是一个用于多模态大语言模型(MLLMs)中视觉基础深度组合推理的基准测试。它是首个针对 MLLMs 中视觉基础深度组合推理的基准。
核心特性
- 多层组合推理:每个基准实例被组织成一个多层推理链,每一层都包含一个基于视觉证据的非平凡组合条件。
- 程序可验证性:采用基于 VPIR(可验证程序化中间表示)的智能合成流程,确保每个条件在机制上可验证。
- 配对困难负样本:合成器自动生成配对的 True-path 和 False-path 实例,两者仅在一个翻转的谓词上不同。
- 三个视觉领域:自然图像、数据图表和 GUI 轨迹。
- 确定性评估:所有实例均被表述为具有确定性答案的多项选择题,支持无需 LLM 作为评判者的可复现评估。
数据集统计
| 领域 | 图像/轨迹数量 | 样本数量 |
|---|---|---|
| 自然图像 | 398 | 796 |
| 图表 | 200 | 400 |
| GUI | 377(3,421 帧) | 754 |
| 总计 | 975 | 1,950 |
每个图像/轨迹产生一个条件链,编译成一个配对的 True-path 和 False-path 实例。
数据集结构
MM-CondChain/ ├── README.md ├── data/ │ ├── natural.jsonl │ ├── chart.jsonl │ └── gui.jsonl └── images/ ├── natural/ │ └── *.jpg ├── chart/ │ └── .png └── gui/ └── <trajectory_id>/ └── <trajectory_id>_.png
每个 JSONL 文件中的样本包含以下字段: json { "id": "natural_001", "domain": "natural", "image": "images/natural/sa_24810.jpg", "true_path": { "full_instruction": "If the fisherman wearing a baseball cap is ...", "pseudocode": "# the fisherman wearing a baseball cap if (is_occluded and ...) ...", "correct_answer": "F1" }, "false_path": { "diverge_node": "qa_1", "full_instruction": "If the fisherman wearing a baseball cap is ...", "pseudocode": "# the fisherman wearing a baseball cap if (is_occluded and ...) ...", "correct_answer": "A1" } }
关于图像路径的说明:
- 对于自然图像和图表领域,
image是单个图像路径。 - 对于 GUI 领域,
image是一个轨迹文件夹路径。加载 GUI 图像时,需列出文件夹中按文件名排序的所有 PNG 文件。
实验结果概览
在多个 MLLMs 上的实验表明,即使最强的模型也仅达到 53.33 Path F1,证实深度组合推理仍然是一个根本性挑战。
主要模型性能如下(Avg F1):
- Gemini-3-Pro:53.33
- GPT-5-0807:50.34
- Gemini-3-Flash:48.31
- Qwen3-VL-235B-Thinking:46.83
- Qwen3.5-397B-A17B:45.90
引用
如果 MM-CondChain 对您的研究有帮助,请考虑引用: bibtex @article{shen2025mmcondchain, title={MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning}, author={Haozhan Shen and Shilin Yan and Hongwei Xue and Shuaiqi Lu and Xiaojun Tang and Guannan Zhang and Tiancheng Zhao and Jianwei Yin}, year={2025}, eprint={xxxx.xxxxx}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/xxxx.xxxxx}, }
相关链接
- 项目主页:https://Accio-Lab.github.io/MM-CondChain
- arXiv 论文:https://arxiv.org/abs/xxxx.xxxxx
- GitHub:https://github.com/Accio-Lab/MM-CondChain
- 排行榜:https://Accio-Lab.github.io/MM-CondChain#leaderboard




