VLM-150M, VLM-1B
收藏HQ-CLIP数据集概述
数据集基本信息
- 名称: HQ-CLIP
- 相关论文: HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models
- 作者: Zhixiang Wei, Guangting Wang等
- 机构: 中国科学技术大学, 腾讯微信视觉团队
关键贡献
- 高效数据生成流程: 使用大型视觉语言模型(LVLMs)进行多粒度标注
- 高质量图像-文本数据集:
- VLM-1B: 十亿规模数据集
- VLM-150M: 精选1.47亿样本
- HQ-CLIP训练框架: 扩展对比学习的新CLIP训练范式
数据集详情
| 数据集名称 | 样本数量 | 链接 |
|---|---|---|
| VLM-150M | 147M | https://huggingface.co/datasets/zhixiangwei/VLM-150M |
| VLM-1B | - | https://huggingface.co/datasets/zhixiangwei/VLM-1B |
模型性能
| 模型 | 预训练数据 | ImageNet Top-1 | DataComp Score |
|---|---|---|---|
| CLIP-B-16 | VLM-150M-Medium | 70.6 | 58.6 |
| CLIP-L-14-CLIPA | VLM-1B | 78.6 | 63.8 |
| CLIP-L-14-OPENAI | VLM-1B | 76.5 | 63.7 |
使用指南
准备步骤
- (可选) 下载CommonPool基础数据集
- 访问: https://github.com/mlfoundations/datacomp#downloading-commonpool
- 获取DFN基础数据集
- 下载地址: https://huggingface.co/datasets/apf1/datafilteringnetworks_2b
- 下载HQ-CLIP数据集
- VLM-150M和VLM-1B
集成方法
- 选项1: 直接替换标题
- 选项2: 动态数据加载
模型加载
-
open_clip用户: python import open_clip model, preprocess_train, preprocess_val = open_clip.create_model_and_transforms(hf-hub:zhixiangwei/vlm150m-hqclip-large-vitb16) tokenizer = open_clip.get_tokenizer(hf-hub:zhixiangwei/vlm150m-hqclip-large-vitb16)
-
Hugging Face Transformers用户: python from transformers import AutoModel model = AutoModel.from_pretrained(zhixiangwei/vlm150m-hqclip-large-vitb16)
引用
bibtex @misc{hqclip, title={HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models}, author={Zhixiang Wei and Guangting Wang and Xiaoxiao Ma and Ke Mei and Huaian Chen and Yi Jin and Fengyun Rao}, year={2025}, eprint={2507.22431}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.22431}, }




