VLM-150M, VLM-1B

github2025-07-31 更新2025-08-01 收录

下载链接：

https://github.com/w1oves/hqclip

下载链接

链接失效反馈

官方服务：

资源简介：

高质量图像-文本数据集，由最先进的大型视觉语言模型生成，包含正面/负面示例和丰富的文本描述。VLM-1B是十亿规模的数据集，VLM-150M是精选的1.47亿样本。

This high-quality image-text dataset is generated by state-of-the-art large vision-language models, and includes both positive and negative examples as well as rich textual descriptions. VLM-1B is a billion-scale dataset, while VLM-150M is a curated subset with 147 million samples.

创建时间：

2025-07-24

原始信息汇总

HQ-CLIP数据集概述

数据集基本信息

名称: HQ-CLIP
相关论文: HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models
作者: Zhixiang Wei, Guangting Wang等
机构: 中国科学技术大学, 腾讯微信视觉团队

关键贡献

高效数据生成流程: 使用大型视觉语言模型（LVLMs）进行多粒度标注
高质量图像-文本数据集:
- VLM-1B: 十亿规模数据集
- VLM-150M: 精选1.47亿样本
HQ-CLIP训练框架: 扩展对比学习的新CLIP训练范式

数据集详情

数据集名称	样本数量	链接
VLM-150M	147M	https://huggingface.co/datasets/zhixiangwei/VLM-150M
VLM-1B	-	https://huggingface.co/datasets/zhixiangwei/VLM-1B

模型性能

模型	预训练数据	ImageNet Top-1	DataComp Score
CLIP-B-16	VLM-150M-Medium	70.6	58.6
CLIP-L-14-CLIPA	VLM-1B	78.6	63.8
CLIP-L-14-OPENAI	VLM-1B	76.5	63.7

使用指南

准备步骤

(可选) 下载CommonPool基础数据集
- 访问: https://github.com/mlfoundations/datacomp#downloading-commonpool
获取DFN基础数据集
- 下载地址: https://huggingface.co/datasets/apf1/datafilteringnetworks_2b
下载HQ-CLIP数据集
- VLM-150M和VLM-1B

集成方法

选项1: 直接替换标题
选项2: 动态数据加载

模型加载

open_clip用户: python import open_clip model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms(hf-hub:zhixiangwei/vlm150m-hqclip-large-vitb16) tokenizer = open_clip.get_tokenizer(hf-hub:zhixiangwei/vlm150m-hqclip-large-vitb16)
Hugging Face Transformers用户: python from transformers import AutoModel model = AutoModel.from_pretrained(zhixiangwei/vlm150m-hqclip-large-vitb16)

引用

bibtex @misc{hqclip, title={HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models}, author={Zhixiang Wei and Guangting Wang and Xiaoxiao Ma and Ke Mei and Huaian Chen and Yi Jin and Fengyun Rao}, year={2025}, eprint={2507.22431}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.22431}, }

搜集汇总

数据集介绍

构建方式

在视觉-语言模型研究领域，VLM-150M和VLM-1B数据集的构建采用了前沿的大规模视觉语言模型（LVLM）技术。通过多粒度标注流程，研究团队开发了高效的数据生成管道，对CommonPool和DFN基础数据集进行深度增强。数据集构建过程中特别设计了正负例样本对，并辅以丰富的文本描述，确保数据质量的全面提升。每个JSON条目通过文件名匹配与原始DFN数据集UID精确对应，实现了标注信息的无缝衔接。

特点

作为高质量图文对数据集，VLM系列展现出显著的规模优势和技术特色。VLM-1B达到十亿级样本规模，而VLM-150M则包含1.47亿精选样本，两者均提供负样本描述监督和短标签增强等创新特征。数据集特别强化了文本描述的语义密度，每张图像配备多样化标注，包括详细的主体描述、场景分析和属性说明。这种设计使数据集特别适合训练具有细粒度理解能力的跨模态模型，在ImageNet和DataComp等基准测试中展现出优越性能。

使用方法

该数据集的使用遵循模块化集成策略，研究人员可根据需求灵活选择应用方式。基础使用方案包括直接替换DFN原始标注，或通过修改OpenCLIP数据加载器实现动态读取。数据集与主流深度学习框架深度兼容，既支持open_clip库的标准调用方式，也能通过HuggingFace Transformers接口直接加载。技术文档详细说明了与CommonPool和DFN基础数据集的对接方法，用户可通过匹配UID实现增强标注与原始图像数据的自动关联，为跨模态对比学习研究提供完整的数据支持。

背景与挑战

背景概述

VLM-150M和VLM-1B数据集是由中国科学技术大学与腾讯微信视觉团队联合开发的高质量图文数据集，旨在推动视觉-语言模型（VLM）领域的研究。该数据集于2025年发布，核心研究问题聚焦于如何利用大规模视觉-语言模型（LVLMs）生成高质量的图像-文本对，以提升跨模态表示学习的性能。通过多粒度标注流程，数据集不仅包含正负样本对，还提供了丰富的文本描述，为CLIP等对比学习模型的训练提供了更全面的监督信号。其创新性的HQ-CLIP训练框架通过引入负描述监督和短标签增强，显著提升了模型在ImageNet等基准任务上的表现，对计算机视觉与自然语言处理的交叉领域产生了深远影响。

当前挑战

VLM-150M和VLM-1B数据集面临的挑战主要体现在两个方面：领域问题方面，跨模态对齐的复杂性要求图像与文本描述之间具有高度语义一致性，而传统数据集中存在的噪声和低质量标注会严重影响模型性能；构建过程方面，如何设计高效的LVLMs标注流程以确保数十亿规模数据的质量一致性，以及如何处理原始数据（如DFN数据集）中的偏差和缺失信息，都是极具挑战性的技术难题。此外，动态数据加载时保持标注与原图像的精确匹配，以及负样本的合理构建，也需要精细的工程实现和算法设计。

常用场景

经典使用场景

在视觉-语言模型（VLM）研究领域，VLM-150M和VLM-1B数据集以其大规模和高质量特性，成为训练和评估多模态模型的黄金标准。这些数据集通过先进的大规模视觉-语言模型（LVLMs）生成，包含丰富的正负样本和多样化的文本描述，为研究者提供了理想的实验平台。特别是在对比学习框架下，这些数据集能够有效提升模型对图像和文本之间复杂关联的理解能力，为跨模态检索、图像描述生成等任务奠定了坚实基础。

解决学术问题

VLM-150M和VLM-1B数据集显著解决了多模态学习中的关键学术难题。传统图像-文本数据集往往面临标注质量参差不齐、规模有限等问题，而这两个数据集通过LVLMs生成的精细化标注，提供了更准确的语义对齐信息。其创新的负描述监督和短标签增强机制，有效缓解了对比学习中常见的模态鸿沟问题，为提升CLIP类模型的泛化性能提供了全新思路。这些突破性进展直接推动了视觉-语言预训练领域的理论发展和技术革新。

衍生相关工作

该数据集的发布催生了一系列创新性研究。基于VLM-150M训练的CLIP-B-16模型在DataComp基准测试中取得58.6分，启发了后续关于高效视觉表征学习的工作。同时，团队提出的HQ-CLIP训练框架已被多个研究组扩展应用，如结合Qwen2VL模型开发的新型图文生成系统。这些衍生工作不仅验证了数据集的质量，更推动了整个多模态学习领域向更精细的语义理解方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集