five

nopperl/arxiv-image-text

收藏
Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nopperl/arxiv-image-text
下载链接
链接失效反馈
官方服务:
资源简介:
arXiv Figures Dataset数据集包含从arXiv存储库中截至2020年底发表的论文中提取的图像-文本对。该数据集可用于训练CLIP模型。数据集包含一个Parquet文件,其中包含WebDataset的元数据,格式为img2dataset。图像本身不包含在数据集中,需要通过论文ID和文件名从arXiv S3 bucket中获取。此外,数据集还包含一个NumPy文件,其中包含所有不被视为与DataComp评估数据重复的样本的uid,可用于去重。

arXiv Figures Dataset数据集包含从arXiv存储库中截至2020年底发表的论文中提取的图像-文本对。该数据集可用于训练CLIP模型。数据集包含一个Parquet文件,其中包含WebDataset的元数据,格式为img2dataset。图像本身不包含在数据集中,需要通过论文ID和文件名从arXiv S3 bucket中获取。此外,数据集还包含一个NumPy文件,其中包含所有不被视为与DataComp评估数据重复的样本的uid,可用于去重。
提供机构:
nopperl
原始信息汇总

arXiv Figures Dataset 概述

数据集描述

  • 内容: 包含从arXiv仓库截至2020年底发布的论文中提取的图像-文本对。
  • 用途: 用于训练CLIP模型。

数据集结构

  • 元数据: 以Parquet格式存储,采用WebDataset格式,由img2dataset工具处理。
  • 图像: 图像本身不随数据集分发,需单独获取。图像无法通过HTTP URL直接获取,需使用论文ID和文件名作为标识符进行检索。
  • 论文下载: 论文可通过arXiv S3 bucket下载。

附加信息

  • 去重数据: 包含一个NumPy文件,记录了非重复样本的UID,用于与DataComp评估数据进行去重处理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作