Creation-MMBench

Hugging Face2025-03-17 更新2025-03-18 收录

下载链接：

https://huggingface.co/datasets/nebulae09/Creation-MMBench

下载链接

链接失效反馈

官方服务：

资源简介：

Creation-MMBench是一个专门设计用于评估Multimodal Large Language Models (MLLMs) 创造性能力的数据集。它包含765个测试用例，涵盖51个细粒度任务。每个测试用例为MLLM提供图像和上下文信息，包括角色、背景信息和指令。数据集还采用多图像格式，并针对每个测试用例提供了特定的评估标准，以评估模型生成内容的通用响应质量和视觉事实一致性。

Creation-MMBench is a dataset specifically designed to evaluate the creative capabilities of Multimodal Large Language Models (MLLMs). It consists of 765 test cases spanning 51 fine-grained tasks. Each test case provides the MLLM with image and contextual information, including characters, background details and instructions. The dataset also adopts multi-image format and provides specific evaluation criteria for each test case to assess the general response quality and visual fact consistency of the model's generated content.

创建时间：

2025-03-17

搜集汇总

数据集介绍

构建方式

Creation-MMBench数据集的构建旨在评估多模态大语言模型（MLLMs）在创造性任务中的表现。该数据集通过精心设计的765个测试案例，涵盖了51个细粒度任务，每个案例均包含图像和上下文信息，如角色、背景和指令。为了进一步探索视觉指令调优的影响，数据集还提供了一个纯文本变体Creation-MMBench-TO，通过将图像输入替换为相应的文本描述。数据集的构建过程注重实例特定的评估标准，确保对模型生成内容的质量和视觉事实一致性进行全面评估。

特点

Creation-MMBench数据集的特点在于其多模态性和创造性任务的多样性。数据集包含1001张图像，覆盖超过25个不同类别，部分问题甚至包含多达9张图像。每个问题都设计了特定的角色，以激发MLLMs的创造力。此外，数据集的查询长度超过500个标记，显示出其复杂性和全面性。数据集还提供了详细的评估标准，包括视觉事实性评分（VFS）和奖励评分，确保对模型表现的全面评估。

使用方法

Creation-MMBench数据集的使用方法主要围绕多模态大语言模型的评估展开。用户可以通过VLMEvalKit工具包对模型进行评估，使用默认的双重评估策略和GPT-4o作为评判模型。评估过程中，用户可以选择单GPU或多GPU并行推理，以加快评估速度。评估命令示例包括使用Qwen2.5-7B模型进行推理，并通过指定数据集和评判模型来启动评估过程。评估结果将展示模型在多个类别中的表现，包括视觉事实性评分和奖励评分，为研究提供详尽的性能分析。

背景与挑战

背景概述

Creation-MMBench是由OpenCompass团队于2025年发布的多模态基准测试数据集，旨在评估多模态大语言模型（MLLMs）在创造性任务中的表现。该数据集由765个测试案例组成，涵盖51个细粒度任务，涉及文学创作、功能性写作、专业写作及多模态理解等多个领域。每个案例均包含图像、角色背景、任务指令等丰富信息，旨在通过多模态输入激发模型的创造性思维。Creation-MMBench的发布填补了MLLMs在创造性能力评估领域的空白，为相关研究提供了重要的基准工具。

当前挑战

Creation-MMBench面临的挑战主要体现在两个方面。首先，在领域问题方面，该数据集旨在解决多模态模型在创造性任务中的表现评估问题，尤其是如何准确衡量模型在复杂上下文中的创造性输出。这要求模型不仅能够理解多模态输入，还需生成符合任务要求且具有创新性的内容。其次，在数据集构建过程中，如何设计多样化的任务、确保图像与文本的合理匹配，以及制定科学且可量化的评估标准，均是构建团队面临的主要挑战。此外，如何平衡数据集的复杂性与实用性，使其既能反映真实场景，又能有效评估模型性能，也是该数据集构建中的一大难点。

常用场景

经典使用场景

Creation-MMBench数据集主要用于评估多模态大语言模型（MLLMs）在创造性任务中的表现。通过提供包含图像和上下文的测试案例，该数据集能够模拟复杂的现实场景，帮助研究人员评估模型在文学创作、功能性写作、专业写作以及多模态理解等方面的表现。每个测试案例都配备了详细的角色、背景信息和指令，确保模型能够在多样化的情境下展示其创造性能力。

实际应用

在实际应用中，Creation-MMBench数据集可以用于开发更智能的创作助手，帮助作家、艺术家和设计师等专业人士生成更具创造性的内容。例如，模型可以根据用户提供的图像和背景信息，生成符合特定风格或主题的文学作品或设计方案。此外，该数据集还可用于教育领域，帮助学生通过多模态输入提升创造性思维能力。

衍生相关工作

Creation-MMBench的发布推动了多模态大语言模型在创造性任务中的研究进展。基于该数据集，许多研究工作进一步探索了视觉指令调优对模型性能的影响，并开发了新的评估方法。例如，Creation-MMBench-TO作为其文本变体，提供了纯文本输入的评估场景，帮助研究人员更好地理解视觉信息在多模态生成中的作用。此外，该数据集还激发了更多关于多模态生成模型的研究，推动了该领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集