five

VARAG/ArxivCaptionDataset

收藏
Hugging Face2024-04-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/VARAG/ArxivCaptionDataset
下载链接
链接失效反馈
官方服务:
资源简介:
ArxivCap数据集是一个多模态数据集,包含了来自arXiv学术论文的图像和文本描述。数据集的具体内容包括640万张图像和390万条文本描述,总计1.93亿个单词,涵盖了57万篇学术论文的标题、摘要和图像描述。数据集的构建过程参考了相关论文,并且提供了详细的数据加载方法和数据结构描述。

ArxivCap数据集是一个多模态数据集,包含了来自arXiv学术论文的图像和文本描述。数据集的具体内容包括640万张图像和390万条文本描述,总计1.93亿个单词,涵盖了57万篇学术论文的标题、摘要和图像描述。数据集的构建过程参考了相关论文,并且提供了详细的数据加载方法和数据结构描述。
提供机构:
VARAG
原始信息汇总

数据集概述

数据集名称

  • 名称: ArxivCap
  • 许可证: CC BY-SA 4.0

数据集属性

  • 任务类别: image-to-text
  • 语言: en
  • 大小类别: 1M<n<10M
  • 标签: arxiv, multi-modal

数据集内容

  • 概述: 包含6.4百万张图片和3.9百万个标题,总计193百万字,来自57万篇学术论文,每篇论文附有摘要和标题。
  • 数据实例: 每个实例包含论文的源文件路径、arXiv ID、标题、摘要、元数据(包括来自Kaggle和Semantic Scholar的信息)以及图片和标题对。

数据集结构

  • 数据加载: 可通过Python的datasets库加载,或通过Linux命令行快速下载。
  • 数据字段:
    • src: 字符串,源文件路径。
    • arxiv_id: 字符串,arXiv论文ID。
    • title: 字符串,论文标题。
    • abstract: 字符串,论文摘要。
    • meta: 字典,包含来自Kaggle和Semantic Scholar的元数据。
    • caption_images: 列表,包含图片和标题对,每个对包含子标题、图片文件名、图片对象和图片OCR结果。

附加信息

  • 许可证信息: 数据集根据CC BY-SA 4.0许可证发布。
  • 引用信息: 引用时请使用提供的文献信息。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作