MVC

github2025-03-16 更新2025-03-03 收录

下载链接：

https://github.com/s-vco/s-vco

下载链接

链接失效反馈

官方服务：

资源简介：

MVC是一个对比配对的图像-文本数据集，源自视觉反事实数据源。它经过自动过滤，仅保留具有有意义语义细节的视觉挑战性配对，并进行语言增强以增加多样性。

MVC is a contrastive paired image-text dataset derived from visual counterfactual data sources. It underwent automatic filtering to retain only visually challenging pairs with meaningful semantic details, and was augmented via language augmentation to enhance diversity.

创建时间：

2025-02-20

原始信息汇总

S-VCO 数据集概述

数据集名称

S-VCO: Symmetrical Visual Contrastive Optimization

数据集简介

S-VCO是一种针对视觉语言模型（VLMs）的微调方法，旨在增强视觉依赖任务的能力，同时保持或提高通用性能。它操作于包含详细视觉差异的对比性图像-文本对，如MVC数据集。S-VCO对视觉条件实施严格监督，并在匹配相应文本时对称处理每对中的两个图像作为“首选”。

数据集组成

MVC数据集：一个由视觉反事实数据源派生的对比性图像-文本对数据集。数据集自动过滤以保留具有有意义语义细节的视觉挑战性对，并进行语言增强。

数据集下载

安装Git LFS后，运行bash prepare_source_data.sh脚本来下载和准备源数据。
数据集分为三个图像文件夹：flickr30k、Flickr30k-Counterfactuals、finecops-ref。

数据集过滤与增强

MVC数据集通过CLIP相似性过滤（>0.7）和DINOv2相似性过滤（<0.5），并进行语言增强。
数据集分为训练集和验证集。

数据集使用

运行环境：CUDA 11.8，使用conda创建和激活S-VCO环境。
训练示例：提供示例脚本来在LLaVA-NeXT-Interleave-7B模型上运行S-VCO。

评估

提供脚本用于在基准数据集上评估微调后的检查点。

引用

plaintext @misc{wu2025symmetricalvisualcontrastiveoptimization, title={Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images}, author={Shengguang Wu and Fan-Yun Sun and Kaiyue Wen and Nick Haber}, year={2025}, eprint={2502.13928}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.13928}, }

搜集汇总

数据集介绍

构建方式

MVC数据集通过从视觉反事实数据源中自动筛选出视觉挑战性较强的图像-文本对，并对其进行语言增强，以形成对比性的图像-文本配对集合。该数据集的构建过程严格遵循视觉条件的监督，确保图像与文本的对应匹配。

特点

MVC数据集的特点在于其对比性的图像-文本配对，这些配对在视觉上具有显著的不同语义细节。数据集经过精心筛选和增强，以支持多样化的语言表述，且在保留非合成数据方面进行了特别处理，确保数据集的质量和多样性。

使用方法

使用MVC数据集时，用户需要先安装Git LFS，然后运行提供的数据准备脚本来下载源数据。数据集分为训练集和验证集，用户可通过提供的Python脚本进行划分。此外，用户需搭建相应的S-VCO环境，使用特定的模型和脚本来训练和评估模型性能。

背景与挑战

背景概述

MVC数据集，作为视觉对比优化（S-VCO）方法中的一项核心构成，其构建旨在提升视觉语言模型在视觉依赖任务上的能力，同时保持或提升其通用性能。该数据集的创建基于视觉反事实数据源，通过自动筛选保留了具有视觉挑战性的图像-文本对，并对其进行语言增强处理。MVC数据集的构建可追溯至2025年，由Shengguang Wu, Fan-Yun Sun, Kaiyue Wen和Nick Haber等研究人员提出，并在计算机视觉领域产生了显著影响。该数据集通过严格的视觉条件监督，为视觉语言模型的微调提供了高质量的对比图像-文本对。

当前挑战

MVC数据集在构建过程中所面临的挑战主要包括：确保图像-文本对具有真正意义上的语义差异，以及如何在保留视觉挑战性的同时，避免过度筛选导致的数据集规模减小。此外，构建过程中还需处理非合成数据的位置翻转，并丢弃因不合理情况频繁出现的'Order'类别。在研究领域问题上，MVC数据集面临的挑战是如何有效地提升视觉语言模型在处理具有细微视觉差异的图像-文本对时的性能，这对于视觉问答、图像描述等任务至关重要。

常用场景

经典使用场景

MVC数据集是一组对比性的图像-文本对，专为视觉依赖任务的模型微调而设计。其经典使用场景在于，通过提供具有细微视觉差异的对比图像对，辅助视觉语言模型（VLMs）在进行微调时增强其视觉任务的处理能力，同时保持或提升其泛化性能。这一过程涉及到严格的视觉条件监督，并采用对称优化策略，确保图像-文本对的匹配度。

解决学术问题

该数据集解决了视觉语言模型在处理视觉依赖任务时，如何有效对齐视觉和语言信息的问题。通过MVC数据集，研究者能够训练模型以识别并理解图像中的细微语义差异，这对于提高视觉问答、图像描述等任务的准确性至关重要。此外，MVC数据集的构建也为研究视觉对比学习提供了新的视角。

衍生相关工作

MVC数据集的构建促进了相关领域的研究，如对称视觉对比优化（S-VCO）方法的提出，该方法通过最小对比图像对齐视觉语言模型。此外，该数据集也衍生了其他对比学习策略和视觉语言模型的微调方法，进一步推动了视觉语言领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集