nopperl/arxiv-image-text

Name: nopperl/arxiv-image-text
Creator: nopperl
Published: 2023-11-09 22:59:21
License: 暂无描述

Hugging Face2023-11-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nopperl/arxiv-image-text

下载链接

链接失效反馈

官方服务：

资源简介：

arXiv Figures Dataset数据集包含从arXiv存储库中截至2020年底发表的论文中提取的图像-文本对。该数据集可用于训练CLIP模型。数据集包含一个Parquet文件，其中包含WebDataset的元数据，格式为img2dataset。图像本身不包含在数据集中，需要通过论文ID和文件名从arXiv S3 bucket中获取。此外，数据集还包含一个NumPy文件，其中包含所有不被视为与DataComp评估数据重复的样本的uid，可用于去重。

提供机构：

nopperl

原始信息汇总

arXiv Figures Dataset 概述

数据集描述

内容: 包含从arXiv仓库截至2020年底发布的论文中提取的图像-文本对。
用途: 用于训练CLIP模型。

数据集结构

元数据: 以Parquet格式存储，采用WebDataset格式，由img2dataset工具处理。
图像: 图像本身不随数据集分发，需单独获取。图像无法通过HTTP URL直接获取，需使用论文ID和文件名作为标识符进行检索。
论文下载: 论文可通过arXiv S3 bucket下载。

附加信息

去重数据: 包含一个NumPy文件，记录了非重复样本的UID，用于与DataComp评估数据进行去重处理。

5,000+

优质数据集

54 个

任务类型

进入经典数据集