five

laion/filtered-wit

收藏
Hugging Face2022-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laion/filtered-wit
下载链接
链接失效反馈
官方服务:
资源简介:
Filtered WIT是一个图像-文本数据集,用于运行图像-文本模型。该数据集来源于Wikipedia Image Text Dataset (WIT),数据以tar文件格式存储,每个tar文件包含10,000个样本。每个样本包含一个.jpg图像文件、一个.txt文本文件和一个.json元数据文件。数据集通过CLIP ViT-B32模型和多语言CLIP文本编码器对每个样本的8个可能标题进行比较,保留余弦相似度大于0.26的标题,并丢弃没有过滤标题的样本。
提供机构:
laion
原始信息汇总

Filtered WIT 图像-文本数据集

数据结构

  • 数据以 tar 文件形式存储,每个 tar 文件包含 10,000 个样本。
  • 每个 tar 文件包含 .jpg 图像文件、.txt 描述文本文件和 .json 元数据文件。
  • 推荐的读取数据方法是使用 WebDataset

过滤过程

  • 每个样本有 8 个可能的描述文本,这些文本通过 CLIP ViT-B32 与图像进行比较。
  • 文本使用 multilingual CLIP text encoder 进行编码。
  • 通过余弦相似度比较编码后的文本和图像,保留相似度大于 0.26 的文本。
  • 新的描述文本是所有过滤后的文本的串联,没有过滤文本的样本被丢弃。
  • 过滤过程使用的脚本是 filter_wit.py
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作