five

Fine-Grained CLIP Dataset

收藏
arXiv2025-05-08 更新2025-05-10 收录
下载链接:
https://github.com/360CVGroup/FG-CLIP
下载链接
链接失效反馈
官方服务:
资源简介:
Fine-Grained CLIP 数据集是一个高质量的视觉定位数据集,包含12百万张图像和4千万个区域特定的边界框,每个区域都与详细的描述性文字对齐,确保了精确且富含语境的表示。该数据集用于训练FG-CLIP模型,以提升对细粒度视觉细节的理解,并在各种下游任务中表现出色,包括细粒度理解、开放词汇物体检测、图像-文本检索等。

The Fine-Grained CLIP Dataset is a high-quality visual grounding dataset. It contains 12 million images and 40 million region-specific bounding boxes, where each region is aligned with detailed descriptive text to ensure precise and context-rich representations. This dataset is utilized to train the FG-CLIP model, which aims to enhance the understanding of fine-grained visual details and achieve excellent performance across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and more.
提供机构:
360 AI Research
创建时间:
2025-05-08
原始信息汇总

FG-CLIP数据集概述

基本信息

数据集特点

  1. 数据规模:

    • 12 million images
    • 40 million region-specific bounding boxes
    • 1.6 billion long caption-image pairs
    • 10 million hard fine-grained negative samples
  2. 数据来源:

    • COCO数据集
    • Densely Captioned Images (DCI)
    • ImageNet-1K
    • ImageNet-v2
  3. 数据用途:

    • 用于细粒度视觉和文本对齐
    • 支持开放词汇目标检测
    • 图像文本检索
    • 通用多模态基准测试

模型性能

  • 优势:
    • 在细粒度理解、开放词汇目标检测、图像文本检索和通用多模态基准测试中优于原始CLIP和其他最先进方法

使用方法

  1. 安装: Shell conda create -n FGCLIP python=3.10 -y conda activate FGCLIP cd FG-CLIP && pip install -e .

  2. 模型加载: Shell model_root = "qihoo360/fg-clip-base" model = AutoModelForCausalLM.from_pretrained(model_root,trust_remote_code=True).cuda()

  3. 评估:

    • 长/短标题图像文本检索
    • COCO边界框分类
    • FG-OVD基准测试
    • 零样本分类

引用

bibtex @article{xie2025fgclip, title={FG-CLIP: Fine-Grained Visual and Textual Alignment}, author={Chunyu Xie and Bin Wang and Fanjing Kong and Jincheng Li and Dawei Liang and Gengshen Zhang and Dawei Leng and Yuhui Yin}, year={2025}, eprint={2505.05071}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.05071}, }

许可证

  • 项目内容使用Apache License 2.0
  • 数据集和检查点需遵守各自原始许可证

相关项目

搜集汇总
数据集介绍
main_image_url
构建方式
FG-CLIP数据集的构建采用了多阶段精细标注策略,通过先进的多模态大模型生成16亿对长文本-图像组合以捕捉全局语义细节,并基于GRIT图像库构建了包含1200万图像和4000万区域标注框的高质量视觉定位数据集。数据生产过程采用NPU集群进行高效处理,包括使用CogVLM2-19B模型生成详细区域描述,通过Yolo-World检测模型获取边界框坐标,并利用Llama-3.170B语言模型生成1000万对硬负样本,形成具有语义细微差异的对抗性训练数据。
特点
该数据集的核心特征体现在三个维度:全局层面包含带长文本描述的十亿级图像对,突破传统CLIP的77词元限制;区域层面提供精确的边界框-文本对齐,每个区域标注包含平均3.3个属性描述;创新性地引入硬负样本机制,通过修改物体属性生成语义相近但细节差异的负例对。数据分布覆盖200+细粒度类别,文本描述平均长度达148词元,较传统数据集提升6倍,区域标注密度达每图3.3个框,显著高于COCO等基准数据集。
使用方法
该数据集支持两阶段训练范式:第一阶段通过全局对比学习对齐图像与长文本特征,采用扩展至248词元的文本编码器位置嵌入;第二阶段引入区域对比损失和硬负样本损失,使用RoIAlign提取区域特征并与解析后的短语级文本匹配。下游应用时,可通过冻结视觉编码器实现开放词汇检测,或提取密集特征进行细粒度检索。实验表明,作为多模态大模型的视觉编码器时,在GQA和RefCOCO等基准上能提升3-7个百分点的性能。
背景与挑战
背景概述
Fine-Grained CLIP Dataset (FG-CLIP) 由360 AI Research团队于2025年提出,旨在解决多模态预训练模型在细粒度视觉-文本对齐中的核心挑战。传统CLIP模型虽在图像-文本检索等任务中表现优异,但其基于粗粒度短描述的预训练机制难以捕捉物体属性、空间关系等细节信息。FG-CLIP通过构建包含12万张图像、4000万区域标注框的大规模数据集,并引入10万困难负样本,显著提升了模型对细微语义差异的区分能力。该数据集推动了开放词汇检测、细粒度分类等下游任务的发展,成为多模态理解领域的重要基准。
当前挑战
FG-CLIP面临双重挑战:在领域问题层面,需突破传统CLIP的77词元长度限制,解决长文本描述与局部视觉特征的对齐难题,例如区分'红木桌'与'深棕绒面桌'等近义描述;在构建过程中,需克服细粒度标注的语义密度问题——单个图像区域可能对应多重属性描述(如'带黑鼻的棕狗'),且需确保1200万图像中4000万边界框与文本的精确空间对齐。此外,通过大语言模型生成100万困难负样本时,需平衡语义相似性与标注噪声(实测1.1%错误率),这对对比学习的负样本采样策略提出了极高要求。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,Fine-Grained CLIP Dataset(FG-CLIP)通过其细粒度的视觉与文本对齐能力,成为多模态任务中的关键工具。该数据集特别适用于需要精确理解图像细节的场景,如细粒度图像分类、开放词汇目标检测以及图像-文本检索。其独特之处在于能够处理长文本描述与图像区域的精细匹配,为模型提供丰富的上下文信息,从而在复杂场景中实现更准确的语义理解。
解决学术问题
FG-CLIP解决了传统CLIP模型在细粒度理解上的局限性,如对物体属性和关系的识别不足。通过引入16亿长文本-图像对和1200万图像的区域标注,该数据集显著提升了模型对局部特征的捕捉能力。此外,1000万困难负样本的加入,进一步增强了模型区分细微语义差异的能力,为细粒度视觉识别、开放词汇检测等学术问题提供了新的解决方案。
衍生相关工作
FG-CLIP催生了多项创新研究,如基于区域对比学习的Long-CLIP、结合目标检测数据的RegionCLIP等。这些工作进一步扩展了细粒度对齐的边界,并在开放词汇目标检测(如OV-RCNN、Detic)和视觉语言模型(如LLaVA)中展现出卓越性能。相关方法已被整合到Kosmos-2等大型多模态系统中,推动了视觉语言联合表征领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作