Creation-MMBench

github2025-03-19 更新2025-03-21 收录

下载链接：

https://github.com/open-compass/Creation-MMBench

下载链接

链接失效反馈

官方服务：

资源简介：

Creation-MMBench是一个多模态基准，专门设计用于评估多模态大语言模型（MLLMs）的创造能力。它包括765个测试案例，涵盖51个细粒度任务，每个案例为MLLM提供图像和上下文，包括角色、背景信息和指令。此外，Creation-MMBench还包括一个仅文本的变体Creation-MMBench-TO，通过用相应的文本描述替换图像输入来进一步探索视觉指令调优的影响。

Creation-MMBench is a multimodal benchmark specifically designed to evaluate the creative capabilities of multimodal large language models (MLLMs). It consists of 765 test cases covering 51 fine-grained tasks, with each case providing the MLLM with an image and contextual information including characters, background details, and explicit instructions. Furthermore, Creation-MMBench includes a text-only variant named Creation-MMBench-TO, which substitutes the image input with corresponding textual descriptions to further explore the impact of visual instruction tuning.

创建时间：

2025-03-14

原始信息汇总

Creation-MMBench 数据集概述

🌟 数据集简介

Creation-MMBench 是一个专门设计用于评估多模态大语言模型（MLLMs）创造能力的多模态基准。该基准包含 765 个测试案例，涵盖 51 个细粒度任务。每个案例为 MLLM 提供图像和上下文信息，包括角色、背景信息和指令。为了进一步探索视觉指令调优的影响，Creation-MMBench 还提供了一个纯文本变体 Creation-MMBench-TO，通过将图像输入替换为相应的文本描述。

📚 数据集统计

测试案例总数：765
图像总数：1001 张，涵盖超过 25 个不同类别
图像数量：部分问题包含多达 9 张图像
查询长度：超过 500 个 token，设计复杂且全面
角色多样性：包括作家、艺术家、米其林厨师等多种角色

🏆 数据集评估

Creation-MMBench 采用双评估策略和 GPT-4o 作为评判模型，评估 MLLMs 在以下四个类别中的表现：

文学写作（LW）
常见功能性写作（CFW）
专业功能性写作（PFW）
创造性多模态理解（CMU）

评估结果展示了 MLLMs 在上下文感知创造力和基于视觉的语言生成方面的局限性，并为未来的研究和开发提供了有价值的指导。

🚀 数据集使用

可以通过 VLMEvalKit 对 Creation-MMBench 进行评估。以下是一个示例命令： python python run.py --model Qwen2.5-VL-7B-Instruct --data Creation_MMBench --judge gpt-4o-0806 --verbose

📝 引用

如果您在研究中使用了 Creation-MMBench 或 Creation-MMBench-TO，请引用以下论文： bibtex @misc{fang2025creationmmbench, title={Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM}, author={Xinyu Fang and Zhijian Chen and Kai Lan and Shengyuan Ding and Yingji Liang and Xiangyu Zhao and Farong Wen and Zicheng Zhang and Guofeng Zhang and Haodong Duan and Kai Chen and Dahua Lin}, year={2025}, eprint={2503.14478}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

Creation-MMBench数据集的构建旨在评估多模态大语言模型（MLLMs）在创造性任务中的表现。该数据集包含765个测试案例，涵盖51个细粒度任务，每个案例均提供图像和上下文信息，包括角色、背景信息和指令。为了进一步探索视觉指令调优的影响，数据集还提供了一个纯文本变体Creation-MMBench-TO，通过将图像输入替换为相应的文本描述来实现。数据集的构建过程注重多样性和复杂性，确保能够全面评估模型的创造性能力。

特点

Creation-MMBench数据集的特点在于其多模态性和任务多样性。数据集包含1001张图像，涵盖25个以上的类别，部分问题甚至包含多达9张图像。每个问题设计都包含特定角色，以激发MLLMs的创造性能力。此外，数据集的查询长度超过500个token，表明其问题设计更为复杂和全面。数据集还提供了实例特定的评估标准，能够评估模型生成内容的整体质量和视觉事实一致性。

使用方法

Creation-MMBench数据集的使用方法主要通过VLMEvalKit工具进行模型评估。用户可以通过简单的命令行指令对模型进行测试，支持单GPU和多GPU并行计算。评估过程中默认启用双评估机制，使用GPT-4o作为评判模型，确保评估结果的准确性和可靠性。用户可以根据需要选择不同的模型和评估参数，灵活调整评估过程。数据集的使用不仅限于模型性能测试，还可为多模态大语言模型的创造性能力研究提供重要参考。

背景与挑战

背景概述

Creation-MMBench是由OpenCompass团队于2025年发布的多模态基准数据集，旨在评估多模态大语言模型（MLLM）在创造性任务中的表现。该数据集由Xinyu Fang等研究人员主导开发，涵盖了765个测试案例，涉及51个细粒度任务，包含1001张图像和多种角色设定。Creation-MMBench的推出填补了MLLM在创造性能力评估领域的空白，为研究多模态模型在复杂语境下的创造性生成能力提供了重要工具。其研究成果不仅揭示了当前MLLM在视觉-语言生成任务中的局限性，还为未来模型优化提供了方向性指导。

当前挑战

Creation-MMBench面临的挑战主要体现在两个方面。首先，在领域问题层面，该数据集旨在解决多模态模型在创造性任务中的表现评估问题，尤其是如何准确衡量模型在复杂语境下的创造性生成能力。这要求评估标准不仅关注生成内容的质量，还需兼顾视觉与事实的一致性。其次，在构建过程中，数据集的创建者需设计多样化的任务和角色设定，确保测试案例的广泛性和复杂性，同时还需开发精确的评估方法，如基于GPT-4o的双重评估策略，以应对模型生成内容的多样性和主观性。这些挑战共同推动了多模态创造性评估领域的技术进步。

常用场景

经典使用场景

Creation-MMBench数据集主要用于评估多模态大语言模型（MLLMs）在创造性任务中的表现。通过提供包含图像和上下文的测试案例，该数据集能够全面考察模型在不同角色、背景信息和指令下的创造性生成能力。其经典使用场景包括文学创作、功能性写作以及多模态理解等任务，帮助研究者深入理解MLLMs在复杂情境下的表现。

解决学术问题

Creation-MMBench解决了当前多模态大语言模型在创造性任务评估中的空白。通过设计765个涵盖51个细粒度任务的测试案例，该数据集为研究者提供了一个系统化的评估框架，能够有效衡量模型在视觉-语言对齐、上下文感知生成等方面的能力。其双评估策略和GPT-4o评判模型进一步提升了评估的准确性和可靠性，为未来MLLMs的研究提供了重要参考。

衍生相关工作

Creation-MMBench的发布推动了多模态大语言模型研究领域的进一步发展。基于该数据集，研究者们提出了多种改进模型性能的方法，例如视觉指令调优策略和双评估机制。此外，该数据集还催生了一系列相关研究，如多模态生成模型的优化、视觉-语言对齐技术的改进等，为MLLMs在创造性任务中的应用奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集