laion/filtered-wit

Name: laion/filtered-wit
Creator: laion
Published: 2022-01-29 22:12:01
License: 暂无描述

Hugging Face2022-01-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/laion/filtered-wit

下载链接

链接失效反馈

官方服务：

资源简介：

Filtered WIT是一个图像-文本数据集，用于运行图像-文本模型。该数据集来源于Wikipedia Image Text Dataset (WIT)，数据以tar文件格式存储，每个tar文件包含10,000个样本。每个样本包含一个.jpg图像文件、一个.txt文本文件和一个.json元数据文件。数据集通过CLIP ViT-B32模型和多语言CLIP文本编码器对每个样本的8个可能标题进行比较，保留余弦相似度大于0.26的标题，并丢弃没有过滤标题的样本。

提供机构：

laion

原始信息汇总

Filtered WIT 图像-文本数据集

数据结构

数据以 tar 文件形式存储，每个 tar 文件包含 10,000 个样本。
每个 tar 文件包含 .jpg 图像文件、.txt 描述文本文件和 .json 元数据文件。
推荐的读取数据方法是使用 WebDataset。

过滤过程

每个样本有 8 个可能的描述文本，这些文本通过 CLIP ViT-B32 与图像进行比较。
文本使用 multilingual CLIP text encoder 进行编码。
通过余弦相似度比较编码后的文本和图像，保留相似度大于 0.26 的文本。
新的描述文本是所有过滤后的文本的串联，没有过滤文本的样本被丢弃。
过滤过程使用的脚本是 filter_wit.py。

5,000+

优质数据集

54 个

任务类型

进入经典数据集