VARAG/ArxivCaptionDataset

Name: VARAG/ArxivCaptionDataset
Creator: VARAG
Published: 2024-04-17 06:24:26
License: 暂无描述

Hugging Face2024-04-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/VARAG/ArxivCaptionDataset

下载链接

链接失效反馈

官方服务：

资源简介：

ArxivCap数据集是一个多模态数据集，包含了来自arXiv学术论文的图像和文本描述。数据集的具体内容包括640万张图像和390万条文本描述，总计1.93亿个单词，涵盖了57万篇学术论文的标题、摘要和图像描述。数据集的构建过程参考了相关论文，并且提供了详细的数据加载方法和数据结构描述。

提供机构：

VARAG

原始信息汇总

数据集概述

概述: 包含6.4百万张图片和3.9百万个标题，总计193百万字，来自57万篇学术论文，每篇论文附有摘要和标题。
数据实例: 每个实例包含论文的源文件路径、arXiv ID、标题、摘要、元数据（包括来自Kaggle和Semantic Scholar的信息）以及图片和标题对。

数据加载: 可通过Python的datasets库加载，或通过Linux命令行快速下载。
数据字段:
- src: 字符串，源文件路径。
- arxiv_id: 字符串，arXiv论文ID。
- title: 字符串，论文标题。
- abstract: 字符串，论文摘要。
- meta: 字典，包含来自Kaggle和Semantic Scholar的元数据。
- caption_images: 列表，包含图片和标题对，每个对包含子标题、图片文件名、图片对象和图片OCR结果。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集