five

cmarkea/aftdb

收藏
Hugging Face2024-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cmarkea/aftdb
下载链接
链接失效反馈
官方服务:
资源简介:
Arxiv Figures & Tables Database (AFTdb)数据集包含了从arXiv平台获取的科学文章中的图表和表格。该数据集的目的是训练专门处理文档类型对象(如图表、功能图、表格等)的多模态模型,而不是处理摄影类图像。数据集提供了每个对象的标题、摘要和说明,并且所有文本数据都有英文和法文版本。数据集分为图表和表格两部分,表格部分还提供了LaTeX源代码。数据集可以通过流式加载或本地下载的方式使用,并提供了详细的统计描述和字段说明。

Arxiv Figures & Tables Database (AFTdb)数据集包含了从arXiv平台获取的科学文章中的图表和表格。该数据集的目的是训练专门处理文档类型对象(如图表、功能图、表格等)的多模态模型,而不是处理摄影类图像。数据集提供了每个对象的标题、摘要和说明,并且所有文本数据都有英文和法文版本。数据集分为图表和表格两部分,表格部分还提供了LaTeX源代码。数据集可以通过流式加载或本地下载的方式使用,并提供了详细的统计描述和字段说明。
提供机构:
cmarkea
原始信息汇总

数据集概述

名称: Arxiv Figures & Tables Database (AFTdb)

来源: 数据集由arXiv平台上的科学文章中的图表和表格组成。

目的: 用于训练专门处理文档类型对象(如图表、功能图、表格等)的图像的多模态模型,而非摄影图像。

内容:

  • 图像类型: 图表和表格。
  • 文本数据: 标题、摘要和图表说明,提供英文和法文版本。
  • 附加信息: 每篇文章的总结,用于提供额外的上下文信息。

数据结构:

  • id: 每个观测的唯一标识符。
  • paper_id: 每篇文章的唯一arXiv标识符。
  • type: 对象类型,分为figure和table。
  • authors: 文章作者。
  • categories: 文章的arXiv分类。
  • title: 文章标题。
  • summary: 文章摘要。
  • caption: 文档类型对象的说明。
  • image: 文档类型对象的图像。
  • data: 对于图表,是图表文件名;对于表格,是LaTeX表格代码。
  • newcommands: 文章中使用的LaTeX新命令列表。

统计描述:

  • 文章数量: 22,893篇。
  • 作者数量: 90,165位。
  • 图表(训练集): 157,944个。
  • 图表(测试集): 3,579个。
  • 表格(训练集): 16,415个。
  • 表格(测试集): 395个。
  • 总字数: 英文标题234,072字,法文标题308,187字;英文摘要3,879,940字,法文摘要4,536,101字;英文说明7,689,270字,法文说明8,513,199字。

数据集加载:

  • 图表部分: 建议使用流模式加载。
  • 表格部分: 可以直接本地下载。
  • 同时加载: 可以同时加载图表和表格。

许可: Apache-2.0

语言: 英语和法语

标签: arXiv, multimodal, document-type objects

任务类别: text-generation, text-to-image, image-to-text

数据集分布: 数据集中的文章按arXiv分类,详细分布见原文。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作