Fine-Grained CLIP Dataset

Name: Fine-Grained CLIP Dataset
Creator: 360 AI Research
Published: 2025-05-08 17:06:53
License: 暂无描述

arXiv2025-05-08 更新2025-05-10 收录

下载链接：

https://github.com/360CVGroup/FG-CLIP

下载链接

链接失效反馈

官方服务：

资源简介：

Fine-Grained CLIP 数据集是一个高质量的视觉定位数据集，包含12百万张图像和4千万个区域特定的边界框，每个区域都与详细的描述性文字对齐，确保了精确且富含语境的表示。该数据集用于训练FG-CLIP模型，以提升对细粒度视觉细节的理解，并在各种下游任务中表现出色，包括细粒度理解、开放词汇物体检测、图像-文本检索等。

The Fine-Grained CLIP Dataset is a high-quality visual grounding dataset. It contains 12 million images and 40 million region-specific bounding boxes, where each region is aligned with detailed descriptive text to ensure precise and context-rich representations. This dataset is utilized to train the FG-CLIP model, which aims to enhance the understanding of fine-grained visual details and achieve excellent performance across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and more.

提供机构：

360 AI Research

创建时间：

2025-05-08

原始信息汇总

FG-CLIP数据集概述

基本信息

数据集名称: FG-CLIP (Fine-Grained Visual and Textual Alignment)
论文地址: https://arxiv.org/abs/2505.05071
模型仓库: https://huggingface.co/qihoo360/fg-clip-large
发布日期: 2025年5月9日
会议: ICML 2025

数据集特点

数据规模:
- 12 million images
- 40 million region-specific bounding boxes
- 1.6 billion long caption-image pairs
- 10 million hard fine-grained negative samples
数据来源:
- COCO数据集
- Densely Captioned Images (DCI)
- ImageNet-1K
- ImageNet-v2
数据用途:
- 用于细粒度视觉和文本对齐
- 支持开放词汇目标检测
- 图像文本检索
- 通用多模态基准测试

模型性能

优势:
- 在细粒度理解、开放词汇目标检测、图像文本检索和通用多模态基准测试中优于原始CLIP和其他最先进方法

使用方法

安装: Shell conda create -n FGCLIP python=3.10 -y conda activate FGCLIP cd FG-CLIP && pip install -e .
模型加载: Shell model_root = "qihoo360/fg-clip-base" model = AutoModelForCausalLM.from_pretrained(model_root,trust_remote_code=True).cuda()
评估:
- 长/短标题图像文本检索
- COCO边界框分类
- FG-OVD基准测试
- 零样本分类

引用

bibtex @article{xie2025fgclip, title={FG-CLIP: Fine-Grained Visual and Textual Alignment}, author={Chunyu Xie and Bin Wang and Fanjing Kong and Jincheng Li and Dawei Liang and Gengshen Zhang and Dawei Leng and Yuhui Yin}, year={2025}, eprint={2505.05071}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.05071}, }

许可证

项目内容使用Apache License 2.0
数据集和检查点需遵守各自原始许可证

相关项目

搜集汇总

数据集介绍

构建方式

FG-CLIP数据集的构建采用了多阶段精细标注策略，通过先进的多模态大模型生成16亿对长文本-图像组合以捕捉全局语义细节，并基于GRIT图像库构建了包含1200万图像和4000万区域标注框的高质量视觉定位数据集。数据生产过程采用NPU集群进行高效处理，包括使用CogVLM2-19B模型生成详细区域描述，通过Yolo-World检测模型获取边界框坐标，并利用Llama-3.170B语言模型生成1000万对硬负样本，形成具有语义细微差异的对抗性训练数据。

特点

该数据集的核心特征体现在三个维度：全局层面包含带长文本描述的十亿级图像对，突破传统CLIP的77词元限制；区域层面提供精确的边界框-文本对齐，每个区域标注包含平均3.3个属性描述；创新性地引入硬负样本机制，通过修改物体属性生成语义相近但细节差异的负例对。数据分布覆盖200+细粒度类别，文本描述平均长度达148词元，较传统数据集提升6倍，区域标注密度达每图3.3个框，显著高于COCO等基准数据集。

使用方法

该数据集支持两阶段训练范式：第一阶段通过全局对比学习对齐图像与长文本特征，采用扩展至248词元的文本编码器位置嵌入；第二阶段引入区域对比损失和硬负样本损失，使用RoIAlign提取区域特征并与解析后的短语级文本匹配。下游应用时，可通过冻结视觉编码器实现开放词汇检测，或提取密集特征进行细粒度检索。实验表明，作为多模态大模型的视觉编码器时，在GQA和RefCOCO等基准上能提升3-7个百分点的性能。

背景与挑战

背景概述

Fine-Grained CLIP Dataset (FG-CLIP) 由360 AI Research团队于2025年提出，旨在解决多模态预训练模型在细粒度视觉-文本对齐中的核心挑战。传统CLIP模型虽在图像-文本检索等任务中表现优异，但其基于粗粒度短描述的预训练机制难以捕捉物体属性、空间关系等细节信息。FG-CLIP通过构建包含12万张图像、4000万区域标注框的大规模数据集，并引入10万困难负样本，显著提升了模型对细微语义差异的区分能力。该数据集推动了开放词汇检测、细粒度分类等下游任务的发展，成为多模态理解领域的重要基准。

当前挑战

FG-CLIP面临双重挑战：在领域问题层面，需突破传统CLIP的77词元长度限制，解决长文本描述与局部视觉特征的对齐难题，例如区分'红木桌'与'深棕绒面桌'等近义描述；在构建过程中，需克服细粒度标注的语义密度问题——单个图像区域可能对应多重属性描述（如'带黑鼻的棕狗'），且需确保1200万图像中4000万边界框与文本的精确空间对齐。此外，通过大语言模型生成100万困难负样本时，需平衡语义相似性与标注噪声（实测1.1%错误率），这对对比学习的负样本采样策略提出了极高要求。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域，Fine-Grained CLIP Dataset（FG-CLIP）通过其细粒度的视觉与文本对齐能力，成为多模态任务中的关键工具。该数据集特别适用于需要精确理解图像细节的场景，如细粒度图像分类、开放词汇目标检测以及图像-文本检索。其独特之处在于能够处理长文本描述与图像区域的精细匹配，为模型提供丰富的上下文信息，从而在复杂场景中实现更准确的语义理解。

解决学术问题

FG-CLIP解决了传统CLIP模型在细粒度理解上的局限性，如对物体属性和关系的识别不足。通过引入16亿长文本-图像对和1200万图像的区域标注，该数据集显著提升了模型对局部特征的捕捉能力。此外，1000万困难负样本的加入，进一步增强了模型区分细微语义差异的能力，为细粒度视觉识别、开放词汇检测等学术问题提供了新的解决方案。

衍生相关工作

FG-CLIP催生了多项创新研究，如基于区域对比学习的Long-CLIP、结合目标检测数据的RegionCLIP等。这些工作进一步扩展了细粒度对齐的边界，并在开放词汇目标检测（如OV-RCNN、Detic）和视觉语言模型（如LLaVA）中展现出卓越性能。相关方法已被整合到Kosmos-2等大型多模态系统中，推动了视觉语言联合表征领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集