five

VLM-150M

收藏
arXiv2025-07-30 更新2025-08-01 收录
下载链接:
https://zxwei.site/hqclip/
下载链接
链接失效反馈
资源简介:
VLM-150M数据集是由中国科学技术大学和腾讯微信视觉的研究人员创建的,包含1.5亿高质量图像文本对,每个图像文本对都由最新的视觉语言模型生成四个互补文本:长正面描述、长负面描述、短正面标签和短负面标签。该数据集旨在提高图像文本对的匹配质量,用于训练和测试视觉语言模型。VLM-150M数据集的创建过程是通过使用GPT-4o对10,000个高质量的图像文本对进行重写,并使用开源的视觉语言模型进行监督微调,以生成丰富的文本描述。该数据集的应用领域包括零样本分类、跨模态检索和细粒度视觉理解任务。通过在多个数据集上的实验,HQ-CLIP模型展示了在零样本泛化、跨模态检索和细粒度视觉理解任务上的卓越性能,甚至超过了使用2亿数据进行训练的标准CLIP模型。

The VLM-150M dataset was developed by researchers from the University of Science and Technology of China and Tencent WeChat Vision. It contains 150 million high-quality image-text pairs, with each pair paired with four complementary textual descriptions generated by state-of-the-art vision-language models: long positive description, long negative description, short positive label, and short negative label. This dataset aims to enhance the matching quality of image-text pairs, and is designed for training and evaluating vision-language models. The construction pipeline of the VLM-150M dataset involves rewriting 10,000 high-quality image-text pairs using GPT-4o, followed by supervised fine-tuning with open-source vision-language models to generate rich textual descriptions. Application scenarios of this dataset include zero-shot classification, cross-modal retrieval, and fine-grained visual understanding tasks. Through experiments conducted on multiple datasets, the HQ-CLIP model has exhibited exceptional performance across zero-shot generalization, cross-modal retrieval, and fine-grained visual understanding tasks, even outperforming standard CLIP models trained on 200 million data samples.
提供机构:
中国科学技术大学,腾讯微信视觉
创建时间:
2025-07-30
原始信息汇总

HQ-CLIP数据集概述

基本信息

数据集内容

  • 衍生数据集:
    • VLM-150M (147M样本)
    • VLM-1B
  • 数据来源: 基于DFN-Large数据集精炼
  • 标注类型:
    • 长正面描述
    • 长负面描述
    • 短正面标签
    • 短负面标签

关键技术

  • 核心方法:
    • LVLM驱动的数据精炼管道
    • 硬负样本识别(HNI)机制
    • 短标签分类(STC)损失
  • 训练范式: 扩展传统对比学习,整合负面描述和短标签作为监督信号

模型表现

  • 基准测试: 在38个基准数据集上评估
  • 主要优势:
    • 零样本分类SOTA
    • 跨模态检索性能超越10倍数据量训练的模型
    • 作为LVLM视觉骨干(如LLaVA-1.5)表现优异

衍生模型

  • 预训练模型:
    • CLIP-B-16 (VLM-150M)
    • CLIP-L-14-CLIPA (VLM-1B)
    • CLIP-L-14-OPENAI (VLM-1B)
  • 重标注模型: Qwen2VL

核心贡献

  1. 提出高效LVLM数据精炼管道,创建多粒度标注数据集VLM-150M
  2. 开发HQ-CLIP框架,整合HNI和STC创新机制
  3. 实现超越10倍数据量模型的跨模态检索能力
  4. 验证作为LVLM视觉骨干的优越性

获取信息

  • 状态: 代码/模型/数据集将在论文发表后公开
  • 版权: © 2025 HQ-CLIP项目团队
搜集汇总
数据集介绍
main_image_url
构建方式
VLM-150M数据集的构建采用了创新的LVLM驱动数据精炼流程,通过精心设计的双向描述生成机制对原始图像-文本对进行语义增强。研究团队首先利用GPT-4o生成10,000个高质量图像描述样本作为种子数据,随后对开源的7B参数LVLM进行监督微调,使其具备与GPT-4o相当的描述生成能力。在数据处理阶段,每个图像-文本对通过微调后的LVLM生成四类互补文本:详细正面描述、语义类别标签、硬负样本描述及负类别标签,最终形成包含1.5亿对多粒度标注的数据集。该流程特别设计了动态课程学习机制,通过门控参数控制硬负样本的学习强度,确保模型基础判别能力的稳固建立。
特点
VLM-150M的核心特征体现在其多模态标注的丰富性与系统性。数据集不仅包含传统CLIP训练所需的图像-文本对齐数据,更创新性地引入了硬负样本描述和细粒度语义标签。定量分析显示,生成的详细描述平均长度达原始文本的4倍,显著提升了语义密度。通过双粒度监督信号设计,数据集同时支持粗粒度分类和细粒度检索任务:语义标签聚焦核心视觉概念,适用于分类导向场景;而详细描述则包含丰富的属性信息,有利于跨模态理解。特别构建的硬负样本通过细微语义差异强化了模型的判别能力,在Visual Genome关系识别任务中展现出65.1%的优异表现。
使用方法
该数据集支持多种先进的训练范式。在标准CLIP训练框架外,研究者提出了HQ-CLIP训练策略:通过混合训练平衡原始文本与生成描述的分布差异;采用硬负样本识别损失(α=0.5)增强模型对细微语义差异的敏感性;结合短标签分类损失(β=10)构建多标签分类器,利用频率筛选的30,000类标签词汇表。实际应用时建议采用随机片段采样策略处理长文本,既符合CLIP的77词限制,又保持语义完整性。作为视觉骨干网络时,在LLaVA-1.5框架下替换标准CLIP编码器可获得1574.0的MME评分,较基线提升12%。对于检索任务,建议优先采用详细描述文本,其在Flickr30K数据集上能使Recall@1提升11.7%。
背景与挑战
背景概述
VLM-150M是由中国科学技术大学和腾讯微信视觉团队联合开发的高质量图像-文本对数据集,旨在提升对比语言-图像预训练(CLIP)模型的性能。该数据集基于DFN-Large数据集,通过大型视觉语言模型(LVLM)对原始图像和文本进行精细化处理,生成了包含四种互补文本描述(正面/负面、长/短)的150万对数据。VLM-150M的创建标志着利用LVLM提升多模态数据质量的重要进展,为图像分类、跨模态检索等任务提供了更丰富的监督信号。
当前挑战
VLM-150M面临的挑战主要包括两个方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集旨在解决现有图像-文本对数据集中存在的文本不匹配和描述不足问题,但如何确保生成的描述既能捕捉图像的细粒度语义,又能保持与原始图像的高度相关性仍是一个关键挑战。在构建过程中,大规模处理图像-文本对需要高效的LVLM pipeline,而平衡生成质量与计算成本之间的矛盾,以及设计有效的负样本生成策略以增强模型的判别能力,都是构建过程中需要克服的技术难点。
常用场景
经典使用场景
VLM-150M数据集在视觉-语言预训练领域具有广泛的应用价值,尤其在对比语言-图像预训练(CLIP)模型中表现卓越。该数据集通过大规模视觉-语言模型(LVLM)生成的丰富文本描述,为多模态学习提供了高质量的图像-文本对。经典使用场景包括零样本分类、跨模态检索和细粒度视觉理解任务。例如,在零样本分类中,VLM-150M能够显著提升模型的泛化能力,使其在未见过的类别上表现出色。
实际应用
在实际应用中,VLM-150M数据集为多种下游任务提供了强大的支持。例如,在智能图像检索系统中,该数据集能够帮助模型更准确地理解用户查询意图,返回更相关的图像结果。在自动驾驶领域,数据集中的细粒度标注可以用于提升车辆对复杂场景的理解能力。此外,VLM-150M还可用于教育、医疗等领域,辅助生成高质量的图像描述或进行视觉问答任务。
衍生相关工作
VLM-150M数据集衍生了一系列经典研究工作。基于该数据集提出的HQ-CLIP模型在多个基准测试中达到了最先进的性能,尤其是在跨模态检索任务中表现突出。此外,该数据集还启发了后续研究,如如何更高效地利用LVLM生成数据、如何设计更复杂的训练损失函数以充分利用多粒度标注等。相关成果发表在顶级会议和期刊上,推动了视觉-语言预训练领域的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作