Creation-MMBench
收藏Creation-MMBench 数据集概述
🌟 数据集简介
Creation-MMBench 是一个专门设计用于评估多模态大语言模型(MLLMs)创造能力的多模态基准。该基准包含 765 个测试案例,涵盖 51 个细粒度任务。每个案例为 MLLM 提供图像和上下文信息,包括角色、背景信息和指令。为了进一步探索视觉指令调优的影响,Creation-MMBench 还提供了一个纯文本变体 Creation-MMBench-TO,通过将图像输入替换为相应的文本描述。
📚 数据集统计
- 测试案例总数:765
- 图像总数:1001 张,涵盖超过 25 个不同类别
- 图像数量:部分问题包含多达 9 张图像
- 查询长度:超过 500 个 token,设计复杂且全面
- 角色多样性:包括作家、艺术家、米其林厨师等多种角色
🏆 数据集评估
Creation-MMBench 采用双评估策略和 GPT-4o 作为评判模型,评估 MLLMs 在以下四个类别中的表现:
- 文学写作(LW)
- 常见功能性写作(CFW)
- 专业功能性写作(PFW)
- 创造性多模态理解(CMU)
评估结果展示了 MLLMs 在上下文感知创造力和基于视觉的语言生成方面的局限性,并为未来的研究和开发提供了有价值的指导。
🚀 数据集使用
可以通过 VLMEvalKit 对 Creation-MMBench 进行评估。以下是一个示例命令: python python run.py --model Qwen2.5-VL-7B-Instruct --data Creation_MMBench --judge gpt-4o-0806 --verbose
📝 引用
如果您在研究中使用了 Creation-MMBench 或 Creation-MMBench-TO,请引用以下论文: bibtex @misc{fang2025creationmmbench, title={Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM}, author={Xinyu Fang and Zhijian Chen and Kai Lan and Shengyuan Ding and Yingji Liang and Xiangyu Zhao and Farong Wen and Zicheng Zhang and Guofeng Zhang and Haodong Duan and Kai Chen and Dahua Lin}, year={2025}, eprint={2503.14478}, archivePrefix={arXiv}, primaryClass={cs.CV} }




