Creation-MMBench

Hugging Face2025-03-19 更新2025-03-20 收录

下载链接：

https://huggingface.co/datasets/opencompass/Creation-MMBench

下载链接

链接失效反馈

官方服务：

资源简介：

Creation-MMBench是一个专为评估多模态大型语言模型（MLLM）创造力而设计的多模态基准数据集，包含765个测试案例，涵盖51个细粒度任务。每个案例为MLLM提供图像和上下文信息，包括角色、背景信息和指令。数据集还提供了一个文本only的变体，通过用文本描述替换图像输入。评价方法采用双评价策略和GPT-4o judge模型。

创建时间：

2025-03-17

搜集汇总

数据集介绍

构建方式

Creation-MMBench数据集的构建旨在评估多模态大语言模型（MLLMs）在创造性任务中的表现。该数据集通过精心设计的765个测试案例，涵盖了51个细粒度任务，每个案例均包含图像和上下文信息，如角色、背景和指令。为了进一步探索视觉指令调优的影响，数据集还提供了文本版本的Creation-MMBench-TO，将图像输入替换为相应的文本描述。数据集的构建过程注重多样性和复杂性，确保能够全面评估模型的创造性能力。

特点

Creation-MMBench数据集的特点在于其多模态性和任务多样性。数据集包含1001张图像，涵盖25个不同类别，部分问题甚至包含多达9张图像。每个问题都设计了特定的角色，以激发模型的创造性思维。此外，数据集还提供了详细的评估标准，包括对模型生成内容的视觉事实一致性评估。这些特点使得Creation-MMBench成为一个全面且具有挑战性的基准，能够有效评估MLLMs在创造性任务中的表现。

使用方法

Creation-MMBench数据集的使用方法主要围绕评估多模态大语言模型的创造性能力展开。用户可以通过VLMEvalKit工具包对模型进行评估，使用默认的双重评估策略和GPT-4o作为评判模型。评估过程中，用户可以选择不同的模型进行测试，并通过命令行工具运行评估脚本。数据集的使用不仅限于模型性能的评估，还可以为研究人员提供关于MLLMs在创造性任务中表现的深入洞察，推动相关领域的研究和发展。

背景与挑战

背景概述

Creation-MMBench是由OpenCompass团队于2025年发布的多模态基准测试数据集，旨在评估多模态大语言模型（MLLMs）在创造性任务中的表现。该数据集由765个测试案例组成，涵盖51个细粒度任务，涉及文学创作、功能性写作、专业写作及多模态理解等多个领域。通过提供图像和上下文信息，Creation-MMBench不仅考察模型的文本生成能力，还评估其在视觉与文本结合任务中的表现。该数据集的发布填补了MLLMs在创造性评估领域的空白，为相关研究提供了重要的基准工具。

当前挑战

Creation-MMBench面临的挑战主要体现在两个方面。首先，创造性任务的评估本身具有主观性，如何设计客观且全面的评估标准是一个难题。尽管数据集引入了实例特定的评估标准和双评估机制，但仍需进一步优化以确保评估结果的公正性和一致性。其次，数据集的构建过程中，如何平衡任务的多样性与复杂性也是一个挑战。每个测试案例需要结合图像、角色、背景信息等多维度输入，这对数据的标注和验证提出了较高要求。此外，如何确保模型生成的文本与视觉信息的对齐性，也是该数据集需要解决的核心问题之一。

常用场景

经典使用场景

Creation-MMBench数据集主要用于评估多模态大语言模型（MLLM）在创造性任务中的表现。通过提供包含图像和文本的复杂任务场景，该数据集能够测试模型在文学创作、功能性写作、专业写作以及多模态理解等方面的能力。每个任务都设计了特定的角色和背景信息，以激发模型的创造性思维，并评估其在多模态环境下的表现。

解决学术问题

Creation-MMBench解决了当前多模态大语言模型在创造性任务评估中的空白。传统的评估方法主要关注语言模型的文本生成能力，而忽视了多模态环境下的创造性表现。该数据集通过引入图像和文本的多模态输入，提供了更加全面的评估框架，帮助研究者深入理解MLLM在创造性任务中的局限性，并为未来的模型优化提供了方向。

衍生相关工作

Creation-MMBench的发布催生了一系列相关研究工作，特别是在多模态大语言模型的创造性评估领域。许多研究者基于该数据集提出了新的评估方法和模型优化策略。例如，一些研究专注于改进视觉指令调优技术，以提升模型在多模态任务中的表现。此外，该数据集还推动了多模态生成模型在创意任务中的应用研究，进一步拓展了人工智能在创意领域的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集