five

Creation-MMBench

收藏
Hugging Face2025-03-17 更新2025-03-18 收录
下载链接:
https://huggingface.co/datasets/nebulae09/Creation-MMBench
下载链接
链接失效反馈
官方服务:
资源简介:
Creation-MMBench是一个专门设计用于评估Multimodal Large Language Models (MLLMs) 创造性能力的数据集。它包含765个测试用例,涵盖51个细粒度任务。每个测试用例为MLLM提供图像和上下文信息,包括角色、背景信息和指令。数据集还采用多图像格式,并针对每个测试用例提供了特定的评估标准,以评估模型生成内容的通用响应质量和视觉事实一致性。

Creation-MMBench is a dataset specifically designed to evaluate the creative capabilities of Multimodal Large Language Models (MLLMs). It consists of 765 test cases spanning 51 fine-grained tasks. Each test case provides the MLLM with image and contextual information, including characters, background details and instructions. The dataset also adopts multi-image format and provides specific evaluation criteria for each test case to assess the general response quality and visual fact consistency of the model's generated content.
创建时间:
2025-03-17
搜集汇总
数据集介绍
main_image_url
构建方式
Creation-MMBench数据集的构建旨在评估多模态大语言模型(MLLMs)在创造性任务中的表现。该数据集通过精心设计的765个测试案例,涵盖了51个细粒度任务,每个案例均包含图像和上下文信息,如角色、背景和指令。为了进一步探索视觉指令调优的影响,数据集还提供了一个纯文本变体Creation-MMBench-TO,通过将图像输入替换为相应的文本描述。数据集的构建过程注重实例特定的评估标准,确保对模型生成内容的质量和视觉事实一致性进行全面评估。
特点
Creation-MMBench数据集的特点在于其多模态性和创造性任务的多样性。数据集包含1001张图像,覆盖超过25个不同类别,部分问题甚至包含多达9张图像。每个问题都设计了特定的角色,以激发MLLMs的创造力。此外,数据集的查询长度超过500个标记,显示出其复杂性和全面性。数据集还提供了详细的评估标准,包括视觉事实性评分(VFS)和奖励评分,确保对模型表现的全面评估。
使用方法
Creation-MMBench数据集的使用方法主要围绕多模态大语言模型的评估展开。用户可以通过VLMEvalKit工具包对模型进行评估,使用默认的双重评估策略和GPT-4o作为评判模型。评估过程中,用户可以选择单GPU或多GPU并行推理,以加快评估速度。评估命令示例包括使用Qwen2.5-7B模型进行推理,并通过指定数据集和评判模型来启动评估过程。评估结果将展示模型在多个类别中的表现,包括视觉事实性评分和奖励评分,为研究提供详尽的性能分析。
背景与挑战
背景概述
Creation-MMBench是由OpenCompass团队于2025年发布的多模态基准测试数据集,旨在评估多模态大语言模型(MLLMs)在创造性任务中的表现。该数据集由765个测试案例组成,涵盖51个细粒度任务,涉及文学创作、功能性写作、专业写作及多模态理解等多个领域。每个案例均包含图像、角色背景、任务指令等丰富信息,旨在通过多模态输入激发模型的创造性思维。Creation-MMBench的发布填补了MLLMs在创造性能力评估领域的空白,为相关研究提供了重要的基准工具。
当前挑战
Creation-MMBench面临的挑战主要体现在两个方面。首先,在领域问题方面,该数据集旨在解决多模态模型在创造性任务中的表现评估问题,尤其是如何准确衡量模型在复杂上下文中的创造性输出。这要求模型不仅能够理解多模态输入,还需生成符合任务要求且具有创新性的内容。其次,在数据集构建过程中,如何设计多样化的任务、确保图像与文本的合理匹配,以及制定科学且可量化的评估标准,均是构建团队面临的主要挑战。此外,如何平衡数据集的复杂性与实用性,使其既能反映真实场景,又能有效评估模型性能,也是该数据集构建中的一大难点。
常用场景
经典使用场景
Creation-MMBench数据集主要用于评估多模态大语言模型(MLLMs)在创造性任务中的表现。通过提供包含图像和上下文的测试案例,该数据集能够模拟复杂的现实场景,帮助研究人员评估模型在文学创作、功能性写作、专业写作以及多模态理解等方面的表现。每个测试案例都配备了详细的角色、背景信息和指令,确保模型能够在多样化的情境下展示其创造性能力。
实际应用
在实际应用中,Creation-MMBench数据集可以用于开发更智能的创作助手,帮助作家、艺术家和设计师等专业人士生成更具创造性的内容。例如,模型可以根据用户提供的图像和背景信息,生成符合特定风格或主题的文学作品或设计方案。此外,该数据集还可用于教育领域,帮助学生通过多模态输入提升创造性思维能力。
衍生相关工作
Creation-MMBench的发布推动了多模态大语言模型在创造性任务中的研究进展。基于该数据集,许多研究工作进一步探索了视觉指令调优对模型性能的影响,并开发了新的评估方法。例如,Creation-MMBench-TO作为其文本变体,提供了纯文本输入的评估场景,帮助研究人员更好地理解视觉信息在多模态生成中的作用。此外,该数据集还激发了更多关于多模态生成模型的研究,推动了该领域的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作