laion/filtered-wit
收藏Hugging Face2022-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laion/filtered-wit
下载链接
链接失效反馈官方服务:
资源简介:
Filtered WIT是一个图像-文本数据集,用于运行图像-文本模型。该数据集来源于Wikipedia Image Text Dataset (WIT),数据以tar文件格式存储,每个tar文件包含10,000个样本。每个样本包含一个.jpg图像文件、一个.txt文本文件和一个.json元数据文件。数据集通过CLIP ViT-B32模型和多语言CLIP文本编码器对每个样本的8个可能标题进行比较,保留余弦相似度大于0.26的标题,并丢弃没有过滤标题的样本。
提供机构:
laion
原始信息汇总
Filtered WIT 图像-文本数据集
数据结构
- 数据以 tar 文件形式存储,每个 tar 文件包含 10,000 个样本。
- 每个 tar 文件包含
.jpg图像文件、.txt描述文本文件和.json元数据文件。 - 推荐的读取数据方法是使用 WebDataset。
过滤过程
- 每个样本有 8 个可能的描述文本,这些文本通过 CLIP ViT-B32 与图像进行比较。
- 文本使用 multilingual CLIP text encoder 进行编码。
- 通过余弦相似度比较编码后的文本和图像,保留相似度大于
0.26的文本。 - 新的描述文本是所有过滤后的文本的串联,没有过滤文本的样本被丢弃。
- 过滤过程使用的脚本是 filter_wit.py。



