COCO-DIMCIM
收藏arXiv2025-06-05 更新2025-06-07 收录
下载链接:
https://github.com/facebookresearch/DIMCIM
下载链接
链接失效反馈官方服务:
资源简介:
COCO-DIMCIM数据集是基于COCO数据集构建的,旨在评估文本到图像生成模型的多样性和泛化能力。数据集包含30个对象类别,每个类别有31个种子提示,以及通过大型语言模型生成的属性和属性类型。数据集的创建过程包括从COCO数据集中选择对象类别和提示,然后使用LLM生成属性和属性类型,并使用VQAScore计算属性-概念分数。该数据集适用于评估文本到图像生成模型的多样性和泛化能力。
提供机构:
Meta AI
创建时间:
2025-06-05
原始信息汇总
COCO-DIMCIM 数据集概述
数据集简介
- 名称: COCO-DIMCIM Benchmark dataset
- 用途: 用于评估文本到图像生成模型在属性层面的默认模式多样性和泛化能力
- 来源: 基于COCO数据集衍生而来
- 论文: "DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models"
数据集内容
- 概念数量: 30个
- 属性数量: 494个
- 粗略提示词: 930个
- 密集提示词: 14,641个
文件结构
COCO-DIMCIM/seed_captions_attributes: 包含概念属性和COCO数据集种子描述的json文件COCO-DIMCIM/dense_prompts: 包含从COCO种子描述生成的粗略和密集图像生成提示词的json文件COCO-DIMCIM/simple_attribute_prompts: 包含用于计算属性VQAScores的简单概念-属性提示词的json文件
许可证信息
- 许可证类型: CC-BY-NC
- 使用限制: 仅限作为基准使用
- 附加条款: 使用该数据训练或改进AI模型时,必须在模型名称前加上"Llama"
评估方法
- 使用文本到图像模型生成图像
- 计算DIM分数(默认模式多样性)
- 计算CIM分数(泛化能力)
- 使用提供的Jupyter notebook绘制和分析分数
引用格式
bibtex @misc{teotia2025dimcimquantitativeevaluationframework, title={DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models}, author={Revant Teotia and Candace Ross and Karen Ullrich and Sumit Chopra and Adriana Romero-Soriano and Melissa Hall and Matthew J. Muckley}, year={2025}, eprint={2506.05108}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.05108}, }
搜集汇总
数据集介绍

构建方式
COCO-DIMCIM数据集的构建基于COCO数据集的概念和标注,通过大语言模型(Llama3.1)扩展生成多样化的属性和提示。首先从COCO数据集中选取30个日常物体类别作为概念集,并随机选择31个标注作为种子提示。随后,利用大语言模型提取并生成视觉属性和属性类型,确保这些属性在现实世界中具有多样性和合理性。通过过滤视觉模糊或相互非排他的属性,最终构建了包含494个属性、930个粗粒度提示和14,641个细粒度提示的基准数据集。
特点
COCO-DIMCIM数据集的核心特点在于其参考无关的评估框架,能够量化文本到图像生成模型的默认模式多样性和泛化能力。数据集通过粗粒度提示评估模型的默认模式多样性(Does-It Metric),而细粒度提示则用于评估模型的泛化能力(Can-It Metric)。此外,数据集覆盖了广泛的视觉属性类型(如颜色、材质、状态等),并通过大语言模型生成的提示确保了多样性和自然语言的流畅性。
使用方法
使用COCO-DIMCIM数据集时,研究者可以通过生成图像并计算Does-It Metric和Can-It Metric来评估模型的多样性和泛化能力。具体步骤包括:1)使用粗粒度提示生成图像,通过VQAScore计算默认模式多样性;2)使用细粒度提示生成图像,评估模型在显式提示下的泛化能力。数据集还支持跨模型和跨规模的比较,帮助识别模型在特定属性或概念上的失败模式。
背景与挑战
背景概述
COCO-DIMCIM数据集由Meta FAIR实验室、纽约大学库朗数学科学研究所、Mila魁北克人工智能研究所等机构的研究团队于2025年共同创建,旨在解决文本到图像生成模型中的多样性与泛化能力评估难题。该数据集基于经典的COCO数据集构建,通过大语言模型对概念和属性进行扩展,形成了包含30个概念、494个属性和14,641个密集提示词的评估基准。其核心研究问题聚焦于生成模型的默认模式多样性(Does-it Metric)和显式泛化能力(Can-it Metric)的量化评估,为理解模型在参数规模扩大时出现的多样性-泛化权衡现象提供了重要工具。
当前挑战
COCO-DIMCIM面临的挑战主要体现在两个方面:在领域问题层面,需要解决现有评估方法对参考图像集的依赖性、多样性度量维度不明确等问题;在构建过程中,需克服属性标注的视觉模糊性、提示词生成的语义合理性等难题。具体挑战包括:1) 如何设计无参考的评估框架来量化生成模型的隐含偏差;2) 确保大语言模型生成的属性具有视觉可区分性和互斥性;3) 保持密集提示词在添加属性后的自然语言流畅性;4) 建立跨概念、跨属性的标准化比较体系。这些挑战的解决使得该数据集能够揭示模型在生成'开放式冰箱'等特定属性时存在的意外失败模式。
常用场景
经典使用场景
COCO-DIMCIM数据集在文本到图像生成模型的评估中扮演了关键角色,特别是在衡量模型的默认模式多样性和泛化能力方面。该数据集通过构建基于COCO概念的粗粒度提示和细粒度提示,为研究者提供了一个标准化的测试平台。在模型评估过程中,研究者可以利用该数据集生成图像,并通过量化指标分析模型在不同属性上的表现差异。例如,当评估模型在生成“狗”这一概念时,可以观察到模型是否能够自然呈现不同品种、颜色或姿态的多样性,而无需显式提示。
衍生相关工作
COCO-DIMCIM数据集催生了一系列关于生成模型评估的延伸研究。基于其框架,研究者开发了针对特定领域的多样性评估基准,如医疗图像生成中的解剖结构多样性分析。在方法层面,该数据集启发了结合大型语言模型的自动化评估流程设计,例如通过自然语言反馈来补充量化指标。部分工作还将其与人类评估相结合,建立了感知多样性与计算指标之间的映射关系。值得注意的是,该数据集的“概念-属性”层级结构也被迁移到视频生成评估中,用于分析时序维度上的多样性表现。
数据集最近研究
最新研究方向
近年来,COCO-DIMCIM数据集在文本到图像生成模型的研究中引起了广泛关注,特别是在模型多样性与泛化能力的量化评估方面。该数据集通过结合COCO数据集的概念和属性,并利用大语言模型进行增强,为研究者提供了一个灵活且可解释的评估框架。前沿研究主要集中在探索模型在默认模式下的多样性(Does-It Metric)和显式提示下的泛化能力(Can-It Metric)之间的权衡。随着模型规模的增大,研究者发现模型在泛化能力上的提升往往以牺牲默认模式多样性为代价。此外,该数据集还被用于识别模型的细粒度失败案例,例如某些属性在显式提示下难以生成,但在默认模式下却能够生成。这些发现不仅揭示了当前文本到图像生成模型的局限性,还为未来模型的优化方向提供了重要参考。
相关研究论文
- 1DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative ModelsMeta AI · 2025年
以上内容由遇见数据集搜集并总结生成



