MICON-Bench

github2026-02-22 更新2026-02-25 收录

下载链接：

https://github.com/Angusliuuu/MICON-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MICON-Bench是一个多图像基准测试数据集，用于评估统一多模态模型中的多图像上下文图像生成质量。它包含1,043个案例和2,518张图像，涵盖六个不同的任务：对象组合、空间组合、属性解耦、组件传输、前景/背景组合和故事生成。

MICON-Bench is a multi-image benchmark dataset designed to evaluate the quality of multi-image contextual image generation in unified multimodal models. It contains 1,043 cases and 2,518 images, covering six distinct tasks: object composition, spatial composition, attribute decoupling, component transfer, foreground/background composition, and story generation.

创建时间：

2026-02-05

原始信息汇总

MICON-Bench 数据集概述

数据集基本信息

数据集名称: MICON-Bench
核心定位: 用于评估和增强统一多模态模型中多图像上下文图像生成质量的基准与框架。
主要目标: 解决现有评估主要关注单图像任务的局限性，转向生成能够整合和推理多个相关参考图像的上下文连贯的视觉输出。
官方存储库地址: https://github.com/Angusliuuu/MICON-Bench
数据集下载地址: https://huggingface.co/datasets/Hangliuuu/MICON-Bench

数据集构成与规模

总案例数: 1,043 个
总图像数: 2,518 张
任务类别: 6 个多样化任务
1. 对象组合
2. 空间几何约束
3. 局部元素迁移
4. 属性风格解耦
5. 前景背景组合
6. 故事推理

核心方法与贡献

MICON-Bench 基准套件

提供一个严谨的基准，包含上述六个任务。
旨在暴露当前统一多模态模型在推理方面的挑战。

基于检查点的评估框架

一种新颖的、由多模态大语言模型驱动的框架。
提供对生成图像的语义和视觉一致性的自动化、可扩展且客观的验证。
默认评判模型为 Qwen3-VL-32B-Instruct。

动态注意力再平衡机制

一种免训练、即插即用的机制，在推理过程中自适应调整注意力。
通过使用注意力图识别参考图像中的过度关注和关注不足区域，重新平衡这些激活。
旨在增强相关参考区域，同时抑制干扰，显著减少幻觉并改善跨图像连贯性。

数据获取与结构

数据集不包含在代码仓库中，需从 Hugging Face 单独下载。
下载后需按以下目录结构放置：

MICON-Bench/ Evaluation/ data/ object_composition/ spatial_geometric_constraints/ local_element_transfer/ attribute_style_decoupling/ foreground_background_composition/ story_infer/

评估流程

输入要求: 生成的图像需放置在 Evaluation/outputs/generations/<model>/<task>/<case_id>.png 路径下，支持 .png, .jpg, .jpeg 格式。
运行命令: 通过 bash run_evaluation.sh <MODEL_NAME> <TASK_TYPE|all> <JUDGE_NAME> 执行评估。
输出位置: 评估结果保存在 Evaluation/outputs/eval_res/<MODEL_NAME>/<MODEL_NAME>_<TIMESTAMP>/。

相关资源

研究论文: https://arxiv.org/abs/2602.19497
接受会议: CVPR 2026

搜集汇总

数据集介绍

构建方式

在视觉内容生成领域，多图像上下文整合能力已成为评估统一多模态模型性能的关键维度。MICON-Bench基准套件通过精心设计的六项多样化任务构建而成，涵盖对象组合、空间几何约束、局部元素迁移、属性风格解耦、前景背景合成及故事推断，共计包含1,043个测试案例与2,518幅参考图像。该数据集采用结构化数据采集与标注流程，确保每个案例均具备明确的语义关联与视觉上下文，为模型在多图像条件下的推理与生成能力提供了系统化、可量化的评估基础。

特点

该数据集的核心特征在于其任务设计的全面性与评估框架的创新性。六项任务从不同维度挑战模型对多图像信息的融合与推理能力，例如在对象组合中要求模型整合不同源图像中的实体，而在故事推断中则需基于连续视觉线索生成连贯叙事。尤为突出的是，数据集引入了基于检查点的自动化评估机制，利用多模态大语言模型驱动，对生成图像的语义一致性与视觉保真度进行客观、可扩展的评分，从而避免了传统人工评估的主观性与局限性。

使用方法

研究人员可通过Hugging Face平台获取MICON-Bench数据集，并按照指定目录结构放置于评估框架中。使用前需在配置文件中设定数据根路径、生成图像路径及评估结果路径，并配置符合OpenAI兼容接口的评判模型，例如默认的Qwen3-VL-32B-Instruct。评估时，将待测模型生成的图像按任务与案例ID组织于指定目录，通过运行脚本启动自动化评测流程，系统将依据预设的评判标准输出各任务在语义与视觉一致性上的量化结果，为模型优化与比较提供可靠依据。

背景与挑战

背景概述

随着统一多模态模型的快速发展，视觉理解能力已取得显著提升，然而现有评估体系多聚焦于单图像任务，缺乏对多图像上下文生成性能的系统性考量。MICON-Bench由研究团队于2026年提出，并被CVPR 2026接收，其核心在于构建一个专为评估多图像上下文图像生成而设计的基准测试。该数据集涵盖六类多样化任务，旨在推动模型整合与推理多个相关参考图像以生成上下文连贯视觉输出的能力，对推动多模态生成模型的演进具有重要影响力。

当前挑战

在解决多图像上下文图像生成这一领域问题时，模型需克服跨图像语义融合、空间关系保持以及属性解耦等复杂挑战，避免生成过程中的幻觉与不一致性。数据集构建过程中，团队面临高质量多图像对标注、任务多样性平衡以及自动化评估框架设计等难题，需确保基准的严谨性与可扩展性，以客观反映模型在真实场景下的推理能力。

常用场景

经典使用场景

在计算机视觉与多模态人工智能领域，MICON-Bench作为首个专注于多图像上下文图像生成的基准测试套件，其经典使用场景在于系统评估统一多模态模型在跨图像推理与合成任务中的表现。该数据集通过涵盖物体组合、空间几何约束、局部元素转移等六类多样化任务，为研究人员提供了一个标准化的实验平台，用以量化模型在整合多幅参考图像信息并生成语义连贯、视觉合理的新图像方面的能力。

解决学术问题

该数据集有效解决了多模态研究中长期存在的关键学术问题，即如何客观衡量模型对多图像上下文的深层理解与连贯生成能力。传统评估多集中于单图像任务，缺乏对跨图像语义关联与组合推理的系统性检验。MICON-Bench通过引入基于检查点的自动化评估框架，提供了可扩展、客观的语义与视觉一致性验证方法，从而填补了多图像生成评估的空白，推动了模型在复杂场景下推理性能的量化分析与比较。

衍生相关工作

围绕MICON-Bench衍生的经典工作主要包括其核心贡献——动态注意力再平衡机制，这是一种无需额外训练、即插即用的推理时优化方法。该机制通过分析注意力图自适应调整参考图像区域的关注权重，显著减少了生成过程中的幻觉现象，提升了跨图像一致性。相关工作进一步探索了该机制在不同开源模型上的泛化能力，并激发了后续研究对多模态模型中注意力机制的可解释性与可控性的深入探讨。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集