VLM-150M

Name: VLM-150M
Creator: 中国科学技术大学，腾讯微信视觉
Published: 2025-07-30 15:21:36
License: 暂无描述

arXiv2025-07-30 更新2025-08-01 收录

下载链接：

https://zxwei.site/hqclip/

下载链接

链接失效反馈

资源简介：

VLM-150M数据集是由中国科学技术大学和腾讯微信视觉的研究人员创建的，包含1.5亿高质量图像文本对，每个图像文本对都由最新的视觉语言模型生成四个互补文本：长正面描述、长负面描述、短正面标签和短负面标签。该数据集旨在提高图像文本对的匹配质量，用于训练和测试视觉语言模型。VLM-150M数据集的创建过程是通过使用GPT-4o对10,000个高质量的图像文本对进行重写，并使用开源的视觉语言模型进行监督微调，以生成丰富的文本描述。该数据集的应用领域包括零样本分类、跨模态检索和细粒度视觉理解任务。通过在多个数据集上的实验，HQ-CLIP模型展示了在零样本泛化、跨模态检索和细粒度视觉理解任务上的卓越性能，甚至超过了使用2亿数据进行训练的标准CLIP模型。

The VLM-150M dataset was developed by researchers from the University of Science and Technology of China and Tencent WeChat Vision. It contains 150 million high-quality image-text pairs, with each pair paired with four complementary textual descriptions generated by state-of-the-art vision-language models: long positive description, long negative description, short positive label, and short negative label. This dataset aims to enhance the matching quality of image-text pairs, and is designed for training and evaluating vision-language models. The construction pipeline of the VLM-150M dataset involves rewriting 10,000 high-quality image-text pairs using GPT-4o, followed by supervised fine-tuning with open-source vision-language models to generate rich textual descriptions. Application scenarios of this dataset include zero-shot classification, cross-modal retrieval, and fine-grained visual understanding tasks. Through experiments conducted on multiple datasets, the HQ-CLIP model has exhibited exceptional performance across zero-shot generalization, cross-modal retrieval, and fine-grained visual understanding tasks, even outperforming standard CLIP models trained on 200 million data samples.

提供机构：

中国科学技术大学，腾讯微信视觉

创建时间：

2025-07-30

原始信息汇总

HQ-CLIP数据集概述

基本信息

数据集名称: HQ-CLIP
发布机构: 中国科学技术大学 & 腾讯微信视觉团队
发布时间: 2025年
相关论文: HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models
会议: ICCV 2025

数据集内容

衍生数据集:
- VLM-150M (147M样本)
- VLM-1B
数据来源: 基于DFN-Large数据集精炼
标注类型:
- 长正面描述
- 长负面描述
- 短正面标签
- 短负面标签

关键技术

核心方法:
- LVLM驱动的数据精炼管道
- 硬负样本识别(HNI)机制
- 短标签分类(STC)损失
训练范式: 扩展传统对比学习，整合负面描述和短标签作为监督信号

模型表现

基准测试: 在38个基准数据集上评估
主要优势:
- 零样本分类SOTA
- 跨模态检索性能超越10倍数据量训练的模型
- 作为LVLM视觉骨干(如LLaVA-1.5)表现优异

衍生模型

预训练模型:
- CLIP-B-16 (VLM-150M)
- CLIP-L-14-CLIPA (VLM-1B)
- CLIP-L-14-OPENAI (VLM-1B)
重标注模型: Qwen2VL

核心贡献

提出高效LVLM数据精炼管道，创建多粒度标注数据集VLM-150M
开发HQ-CLIP框架，整合HNI和STC创新机制
实现超越10倍数据量模型的跨模态检索能力
验证作为LVLM视觉骨干的优越性

获取信息

状态: 代码/模型/数据集将在论文发表后公开
版权: © 2025 HQ-CLIP项目团队

搜集汇总

数据集介绍

构建方式

VLM-150M数据集的构建采用了创新的LVLM驱动数据精炼流程，通过精心设计的双向描述生成机制对原始图像-文本对进行语义增强。研究团队首先利用GPT-4o生成10,000个高质量图像描述样本作为种子数据，随后对开源的7B参数LVLM进行监督微调，使其具备与GPT-4o相当的描述生成能力。在数据处理阶段，每个图像-文本对通过微调后的LVLM生成四类互补文本：详细正面描述、语义类别标签、硬负样本描述及负类别标签，最终形成包含1.5亿对多粒度标注的数据集。该流程特别设计了动态课程学习机制，通过门控参数控制硬负样本的学习强度，确保模型基础判别能力的稳固建立。

特点

VLM-150M的核心特征体现在其多模态标注的丰富性与系统性。数据集不仅包含传统CLIP训练所需的图像-文本对齐数据，更创新性地引入了硬负样本描述和细粒度语义标签。定量分析显示，生成的详细描述平均长度达原始文本的4倍，显著提升了语义密度。通过双粒度监督信号设计，数据集同时支持粗粒度分类和细粒度检索任务：语义标签聚焦核心视觉概念，适用于分类导向场景；而详细描述则包含丰富的属性信息，有利于跨模态理解。特别构建的硬负样本通过细微语义差异强化了模型的判别能力，在Visual Genome关系识别任务中展现出65.1%的优异表现。

使用方法

该数据集支持多种先进的训练范式。在标准CLIP训练框架外，研究者提出了HQ-CLIP训练策略：通过混合训练平衡原始文本与生成描述的分布差异；采用硬负样本识别损失（α=0.5）增强模型对细微语义差异的敏感性；结合短标签分类损失（β=10）构建多标签分类器，利用频率筛选的30,000类标签词汇表。实际应用时建议采用随机片段采样策略处理长文本，既符合CLIP的77词限制，又保持语义完整性。作为视觉骨干网络时，在LLaVA-1.5框架下替换标准CLIP编码器可获得1574.0的MME评分，较基线提升12%。对于检索任务，建议优先采用详细描述文本，其在Flickr30K数据集上能使Recall@1提升11.7%。

背景与挑战

背景概述

VLM-150M是由中国科学技术大学和腾讯微信视觉团队联合开发的高质量图像-文本对数据集，旨在提升对比语言-图像预训练（CLIP）模型的性能。该数据集基于DFN-Large数据集，通过大型视觉语言模型（LVLM）对原始图像和文本进行精细化处理，生成了包含四种互补文本描述（正面/负面、长/短）的150万对数据。VLM-150M的创建标志着利用LVLM提升多模态数据质量的重要进展，为图像分类、跨模态检索等任务提供了更丰富的监督信号。

当前挑战

VLM-150M面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集旨在解决现有图像-文本对数据集中存在的文本不匹配和描述不足问题，但如何确保生成的描述既能捕捉图像的细粒度语义，又能保持与原始图像的高度相关性仍是一个关键挑战。在构建过程中，大规模处理图像-文本对需要高效的LVLM pipeline，而平衡生成质量与计算成本之间的矛盾，以及设计有效的负样本生成策略以增强模型的判别能力，都是构建过程中需要克服的技术难点。

常用场景

经典使用场景

VLM-150M数据集在视觉-语言预训练领域具有广泛的应用价值，尤其在对比语言-图像预训练（CLIP）模型中表现卓越。该数据集通过大规模视觉-语言模型（LVLM）生成的丰富文本描述，为多模态学习提供了高质量的图像-文本对。经典使用场景包括零样本分类、跨模态检索和细粒度视觉理解任务。例如，在零样本分类中，VLM-150M能够显著提升模型的泛化能力，使其在未见过的类别上表现出色。

实际应用

在实际应用中，VLM-150M数据集为多种下游任务提供了强大的支持。例如，在智能图像检索系统中，该数据集能够帮助模型更准确地理解用户查询意图，返回更相关的图像结果。在自动驾驶领域，数据集中的细粒度标注可以用于提升车辆对复杂场景的理解能力。此外，VLM-150M还可用于教育、医疗等领域，辅助生成高质量的图像描述或进行视觉问答任务。

衍生相关工作

VLM-150M数据集衍生了一系列经典研究工作。基于该数据集提出的HQ-CLIP模型在多个基准测试中达到了最先进的性能，尤其是在跨模态检索任务中表现突出。此外，该数据集还启发了后续研究，如如何更高效地利用LVLM生成数据、如何设计更复杂的训练损失函数以充分利用多粒度标注等。相关成果发表在顶级会议和期刊上，推动了视觉-语言预训练领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集