s-emanuilov/coco-clip-vit-l-14
收藏COCO Dataset Processed with CLIP ViT-L/14
概述
该数据集是COCO数据集(COCO Dataset)的“2017未标注图像”子集的加工版本,使用OpenAI的CLIP ViT-L/14模型处理。原始数据集包含约123K张图像,大小约为19GB,经过处理后生成786维向量。这些向量可用于语义搜索系统、图像相似性评估等多种应用。
原始数据集的直接下载链接:COCO 2017 Unlabeled Images
数据集描述
处理结果是一个包含每个文件路径及其对应嵌入的parquet文件。模型输出未进行归一化处理,嵌入是OpenAI CLIP模型的直接结果。
处理细节
我们旨在通过以下脚本生成相同的图像向量。我们的方法使用OpenAI的核心CLIP模型,类似于以下示例:
python import torch import clip from PIL import Image
device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load("ViT-L/14", device=device)
image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device) text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)
with torch.no_grad(): image_features = model.encode_image(image) text_features = model.encode_text(text)
logits_per_image, logits_per_text = model(image, text)
probs = logits_per_image.softmax(dim=-1).cpu().numpy()
print("Label probs:", probs)
应用
该数据集适用于多种AI驱动的应用,包括但不限于:
- 语义搜索系统
- 图像相似性检测
- 增强图像分类




