siglip_400m

Hugging Face2024-12-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/lhbit20010120/siglip_400m

下载链接

链接失效反馈

官方服务：

资源简介：

SigLIP模型是基于WebLI数据集预训练的形状优化模型，分辨率为384x384。该模型在论文《Sigmoid Loss for Language Image Pre-Training》中由Zhai等人提出，并在Google Research的big_vision仓库中首次发布。SigLIP是CLIP的多模态模型，具有改进的损失函数，能够在不依赖全局成对相似性归一化的情况下，进一步扩大批量大小，同时在较小的批量大小下表现更好。该模型主要用于零样本图像分类和图像文本检索任务。训练数据包括WebLI数据集，图像和文本分别经过预处理，图像被调整到384x384分辨率并进行归一化，文本被标记化并填充到64个标记的长度。模型在16个TPU-v4芯片上训练了三天。

SigLIP is a shape-optimized model pre-trained on the WebLI dataset, with a resolution of 384x384. It was proposed by Zhai et al. in the paper *Sigmoid Loss for Language Image Pre-Training* and first released in Google Research's big_vision repository. SigLIP is a multimodal model analogous to CLIP, featuring an improved loss function that enables further scaling of batch size without relying on global pairwise similarity normalization, while delivering better performance even with smaller batch sizes. This model is primarily used for zero-shot image classification and image-text retrieval tasks. The training data originates from the WebLI dataset, where images and texts are preprocessed separately: images are resized to 384x384 resolution and normalized, while texts are tokenized and padded to a length of 64 tokens. The model was trained for three days on 16 TPU-v4 chips.

创建时间：

2024-12-02

原始信息汇总

SigLIP (shape-optimized model)

模型描述

SigLIP 是一个多模态模型，基于 CLIP 模型改进，采用了一种更好的损失函数。该模型在图像-文本对上操作，不需要全局视图来进行归一化，从而允许进一步扩大批量大小，同时在较小的批量大小下表现更好。

预期用途与限制

该模型可用于零样本图像分类和图像-文本检索等任务。

如何使用

以下是如何使用该模型进行零样本图像分类的示例：

python from PIL import Image import requests from transformers import AutoProcessor, AutoModel import torch

model = AutoModel.from_pretrained("google/siglip-so400m-patch14-384") processor = AutoProcessor.from_pretrained("google/siglip-so400m-patch14-384")

url = "http://images.cocodataset.org/val2017/000000039769.jpg" image = Image.open(requests.get(url, stream=True).raw)

texts = ["a photo of 2 cats", "a photo of 2 dogs"] inputs = processor(text=texts, images=image, padding="max_length", return_tensors="pt")

with torch.no_grad(): outputs = model(**inputs)

logits_per_image = outputs.logits_per_image probs = torch.sigmoid(logits_per_image) # these are the probabilities print(f"{probs[0][0]:.1%} that image 0 is {texts[0]}")

或者使用 pipeline API 简化使用：

python from transformers import pipeline from PIL import Image import requests

load pipe

image_classifier = pipeline(task="zero-shot-image-classification", model="google/siglip-so400m-patch14-384")

load image

url = http://images.cocodataset.org/val2017/000000039769.jpg image = Image.open(requests.get(url, stream=True).raw)

inference

outputs = image_classifier(image, candidate_labels=["2 cats", "a plane", "a remote"]) outputs = [{"score": round(output["score"], 4), "label": output["label"] } for output in outputs] print(outputs)

训练过程

训练数据

SigLIP 在 WebLI 数据集上进行了预训练。

预处理

图像被调整/缩放到相同的分辨率（384x384），并在 RGB 通道上进行归一化，均值为 (0.5, 0.5, 0.5)，标准差为 (0.5, 0.5, 0.5)。文本被标记化并填充到相同的长度（64 个标记）。

计算资源

该模型在 16 个 TPU-v4 芯片上训练了三天。

评估结果

SigLIP 与 CLIP 的评估结果如下（摘自论文）：

BibTeX 条目和引用信息

bibtex @misc{zhai2023sigmoid, title={Sigmoid Loss for Language Image Pre-Training}, author={Xiaohua Zhai and Basil Mustafa and Alexander Kolesnikov and Lucas Beyer}, year={2023}, eprint={2303.15343}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

siglip_400m数据集基于WebLI数据集构建，采用384x384分辨率的图像和64个token长度的文本进行预处理。图像通过调整大小和归一化处理，RGB通道的均值和标准差分别设置为(0.5, 0.5, 0.5)。文本则经过token化并填充至固定长度。该数据集通过16个TPU-v4芯片进行训练，训练过程持续了三天。

特点

siglip_400m数据集的核心特点在于其采用了形状优化的SoViT-400m架构，并引入了新的sigmoid损失函数，这一改进不仅提升了模型在较小批量数据上的表现，还允许更大规模的批量处理。此外，该数据集支持零样本图像分类和图像-文本检索任务，展示了其在多模态学习中的广泛应用潜力。

使用方法

使用siglip_400m数据集进行模型训练或推理时，用户可以通过Hugging Face的transformers库加载预训练模型和处理器。对于零样本图像分类任务，用户可以利用AutoModel和AutoProcessor类进行图像和文本的预处理，并通过模型输出获取分类概率。此外，pipeline API提供了一种更为简便的使用方式，用户只需加载图像并指定候选标签即可完成推理。

背景与挑战

背景概述

SigLIP（形状优化模型）是由Zhai等人于2023年提出的一种多模态模型，基于WebLI数据集进行预训练，分辨率为384x384。该模型在论文《Sigmoid Loss for Language Image Pre-Training》中首次亮相，并由Google Research的Big Vision团队发布。SigLIP的核心创新在于其优化的损失函数——Sigmoid损失，该损失函数仅依赖于图像-文本对，无需全局相似性归一化，从而在扩大批量大小和在小批量下表现更优。SigLIP的架构采用了SoViT-400m，这是一种形状优化的变体，进一步提升了模型的计算效率和性能。该模型在零样本图像分类和图像-文本检索等任务中展现了显著的优势，对多模态学习领域产生了深远影响。

当前挑战

SigLIP在构建过程中面临了多项挑战。首先，预训练数据集WebLI的规模和多样性要求模型具备强大的泛化能力，以应对不同类型的图像和文本数据。其次，Sigmoid损失函数的引入虽然简化了计算，但也增加了模型训练的复杂性，尤其是在处理大规模数据时，如何保持计算效率和模型稳定性成为关键问题。此外，SigLIP的训练过程依赖于16个TPU-v4芯片，这不仅对计算资源提出了高要求，还增加了训练成本。最后，尽管SigLIP在零样本分类和检索任务中表现优异，但其在大规模应用中的实际效果和可扩展性仍需进一步验证。

常用场景

经典使用场景

SigLIP_400m数据集在多模态任务中展现了卓越的性能，尤其在零样本图像分类和图像-文本检索方面。其核心优势在于采用了优化的Sigmoid损失函数，使得模型能够在无需全局相似性归一化的情况下，有效处理大规模批量数据。通过结合图像与文本的特征，SigLIP_400m能够准确识别图像内容，并将其与相应的文本描述进行匹配，广泛应用于图像识别与语义理解领域。

实际应用

SigLIP_400m数据集在实际应用中展现了广泛的潜力，尤其在图像分类、内容推荐和智能搜索等领域。例如，在电商平台上，SigLIP_400m可用于商品图像的自动分类与描述生成，提升用户体验；在社交媒体中，可用于图像内容的自动标注与推荐，增强内容检索的准确性。此外，其在自动驾驶和智能监控中的应用，也为图像识别与语义理解提供了新的解决方案。

衍生相关工作

基于SigLIP_400m数据集，研究者们进一步探索了多模态学习的多种应用场景。例如，有研究提出了基于SigLIP的图像-文本联合嵌入方法，用于提升跨模态检索的精度；还有工作将其应用于视觉问答系统，通过结合图像与文本信息，提升了系统的响应能力。此外，SigLIP_400m的成功也激发了对更大规模多模态数据集的构建与优化研究，推动了多模态学习领域的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集