MSCOCO视觉关联数据集

Name: MSCOCO视觉关联数据集
Creator: 哥伦比亚大学
Published: 2025-07-25 11:15:16
License: 暂无描述

arXiv2025-07-25 更新2025-07-29 收录

下载链接：

https://github.com/ananya-sahu/mining_visual_associations

下载链接

链接失效反馈

官方服务：

资源简介：

哥伦比亚大学的研究人员开发了一个新的数据集，用于挖掘图像中显著视觉元素的上下文关联，扩展了MSCOCO数据集，增加了1.7百万个具有抽象层次的创意标题。数据集通过结合视觉语言模型和大型语言模型，自动挖掘视觉元素的上下文关联，并生成不同抽象程度的创意标题。该数据集可用于训练视觉语言模型，在诗歌和隐喻可视化等创意领域提高零样本图像-文本检索的性能。

Researchers from Columbia University developed a novel dataset for excavating contextual associations of salient visual elements in images, which extends the MSCOCO dataset by adding 1.7 million creative captions with multiple levels of abstraction. The dataset automatically excavates contextual associations between visual elements and generates creative captions with varying abstraction levels by combining vision-language models and large language models (LLMs). It can be employed to train vision-language models to improve the performance of zero-shot image-text retrieval in creative fields including poetry and metaphor visualization.

提供机构：

哥伦比亚大学

创建时间：

2025-07-25

原始信息汇总

数据集概述：mining_visual_associations

数据来源

基础数据来自COCO数据集的训练集和验证集的标注及图像，需从COCO官网下载：https://cocodataset.org/#download

数据生成流程

初始格式化
- 使用get_associations_format.py脚本处理COCO训练和验证集的标注及图像，生成关联文件。
- 输入：COCO训练/验证集标注、图像目录、具体性评分文件、密集描述文件。
- 输出：训练和验证集的格式化文件。
关联格式化
- 使用format_associations.py脚本处理上一步生成的关联文件。
- 输入：训练/验证集关联文件、COCO训练/验证集标注。
- 输出：格式化提示文件。
生成创意标注
- 使用generate_creative_captions.py脚本生成创意标注。
- 输入：格式化提示文件、COCO数据集划分、距离标签、环境缓存路径。
- 输出：创意标注文件。

模型训练流程

准备环境
- Fork OpenCLIP仓库：https://github.com/mlfoundations/open_clip
- 将model_train.py文件移至指定目录。
训练模型
- 使用model_train.py脚本，输入创意标注文件（不同距离标签）和模型检查点保存路径。

模型评估任务

任务1：诗歌生成评估
- 下载诗歌语料库：https://github.com/researchmm/img2poem/blob/master/data/multim_poem.json
- 使用eval_poem.py脚本进行评估。
任务2：视觉隐喻评估
- 下载视觉隐喻语料库：https://github.com/tuhinjubcse/VisualMetaphors
- 使用eval_met_task2.py脚本进行评估。
任务3：隐喻文件评估
- 使用eval_met_task3.py脚本，输入隐喻文件和模型检查点路径。

数据集与模型

数据集和模型下载地址：https://drive.google.com/drive/folders/15aK4YeX8QUUpLoHr8zkCh0ewF6-hrwOf?usp=sharing

搜集汇总

数据集介绍

构建方式

MSCOCO视觉关联数据集的构建采用了一种创新的多阶段方法。研究团队首先利用预训练的视觉语言模型（VLM）为MSCOCO基础图像生成详细描述，随后通过大型语言模型（LLM）挖掘图像中显著视觉元素的上下文关联。这些关联按照Hayakawa的抽象阶梯理论分为五个层级，从近义词到完全抽象概念逐级递进。最终，基于不同抽象层级的关联词，采用VLM生成170万条富有创造性的图像描述，整个过程实现了自动化扩展，适用于任何未标注图像数据集。

特点

该数据集的核心特点在于其层次化的抽象表达体系。每个视觉元素的关联概念均基于具体场景上下文动态生成，使得相同物体在不同情境下能激发差异化联想。人工评估表明，90%以上的创造性描述在最高抽象层级仍保持视觉真实性，同时抽象程度评分与预设层级显著相关。数据集还展现出强大的跨文化适应性，约80%的视觉关联具有场景特异性，且抽象层级越高，关联的独特性越显著，为研究视觉-语言的创造性对应关系提供了丰富素材。

使用方法

该数据集主要支持视觉-语言模型的创造性能力训练与评估。使用者可通过不同抽象层级的标注数据，对预训练模型（如CLIP）进行微调，显著提升其在诗歌生成、隐喻可视化等创造性任务中的零样本表现。具体操作时，建议根据目标任务的抽象需求选择对应层级的标注数据，例如诗歌检索适合采用4-5级抽象数据。数据集配套发布的生成代码支持用户将其扩展至其他图像库，为跨模态创造性研究提供标准化工具链。

背景与挑战

背景概述

MSCOCO视觉关联数据集由哥伦比亚大学的Ananya Sahu、Amith Ananthram和Kathleen McKeown等研究人员于2025年提出，旨在解决视觉-语言模型在创造性领域中的局限性。该数据集扩展了经典的MSCOCO数据集，通过挖掘图像中视觉元素的上下文关联，生成了170万条具有不同抽象层次的创意标注。其核心研究问题聚焦于如何从图像中提取多层次的语义关联，以支持诗歌生成、隐喻可视化等创造性任务。这一工作填补了传统视觉-语言模型在抽象语义理解上的空白，为艺术解释、跨模态创作等前沿方向提供了新的数据基础和研究范式。

当前挑战

该数据集面临双重挑战：在领域问题层面，需突破传统图像标注的具象化局限，解决从具象视觉元素到抽象概念（如'树木→生命旅程'）的多级语义映射难题；在构建过程中，需克服大规模关联挖掘的准确性控制（如避免生成与图像无关的幻想式描述）、多抽象度标注的一致性验证（确保d=1至d=5的渐进逻辑），以及预训练模型文化偏见对跨文化关联生成的影响。技术实现上还涉及视觉元素显著性检测、上下文感知的LLM提示工程，以及海量合成标注的质量评估体系构建。

常用场景

经典使用场景

MSCOCO视觉关联数据集在计算机视觉与自然语言处理的交叉领域具有广泛的应用，特别是在图像描述生成和视觉-语言模型训练方面。该数据集通过挖掘图像中的上下文关联，生成具有不同抽象层次的创意描述，为研究视觉与语言之间的复杂关系提供了丰富的数据支持。其经典使用场景包括图像-诗歌检索和隐喻可视化任务，这些任务要求模型能够理解图像中的隐含意义和抽象概念。

衍生相关工作

MSCOCO视觉关联数据集衍生了一系列经典工作，特别是在视觉-语言模型的改进和创意任务中的应用。例如，基于该数据集的研究提出了多种生成抽象描述的方法，并验证了其在图像-诗歌检索和隐喻可视化任务中的有效性。此外，该数据集还启发了对多文化和多语言视觉关联的研究，进一步扩展了其应用范围。

数据集最近研究