cmarkea/aftdb
收藏Hugging Face2024-08-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cmarkea/aftdb
下载链接
链接失效反馈官方服务:
资源简介:
Arxiv Figures & Tables Database (AFTdb)数据集包含了从arXiv平台获取的科学文章中的图表和表格。该数据集的目的是训练专门处理文档类型对象(如图表、功能图、表格等)的多模态模型,而不是处理摄影类图像。数据集提供了每个对象的标题、摘要和说明,并且所有文本数据都有英文和法文版本。数据集分为图表和表格两部分,表格部分还提供了LaTeX源代码。数据集可以通过流式加载或本地下载的方式使用,并提供了详细的统计描述和字段说明。
Arxiv Figures & Tables Database (AFTdb)数据集包含了从arXiv平台获取的科学文章中的图表和表格。该数据集的目的是训练专门处理文档类型对象(如图表、功能图、表格等)的多模态模型,而不是处理摄影类图像。数据集提供了每个对象的标题、摘要和说明,并且所有文本数据都有英文和法文版本。数据集分为图表和表格两部分,表格部分还提供了LaTeX源代码。数据集可以通过流式加载或本地下载的方式使用,并提供了详细的统计描述和字段说明。
提供机构:
cmarkea
原始信息汇总
数据集概述
名称: Arxiv Figures & Tables Database (AFTdb)
来源: 数据集由arXiv平台上的科学文章中的图表和表格组成。
目的: 用于训练专门处理文档类型对象(如图表、功能图、表格等)的图像的多模态模型,而非摄影图像。
内容:
- 图像类型: 图表和表格。
- 文本数据: 标题、摘要和图表说明,提供英文和法文版本。
- 附加信息: 每篇文章的总结,用于提供额外的上下文信息。
数据结构:
- id: 每个观测的唯一标识符。
- paper_id: 每篇文章的唯一arXiv标识符。
- type: 对象类型,分为figure和table。
- authors: 文章作者。
- categories: 文章的arXiv分类。
- title: 文章标题。
- summary: 文章摘要。
- caption: 文档类型对象的说明。
- image: 文档类型对象的图像。
- data: 对于图表,是图表文件名;对于表格,是LaTeX表格代码。
- newcommands: 文章中使用的LaTeX新命令列表。
统计描述:
- 文章数量: 22,893篇。
- 作者数量: 90,165位。
- 图表(训练集): 157,944个。
- 图表(测试集): 3,579个。
- 表格(训练集): 16,415个。
- 表格(测试集): 395个。
- 总字数: 英文标题234,072字,法文标题308,187字;英文摘要3,879,940字,法文摘要4,536,101字;英文说明7,689,270字,法文说明8,513,199字。
数据集加载:
- 图表部分: 建议使用流模式加载。
- 表格部分: 可以直接本地下载。
- 同时加载: 可以同时加载图表和表格。
许可: Apache-2.0
语言: 英语和法语
标签: arXiv, multimodal, document-type objects
任务类别: text-generation, text-to-image, image-to-text
数据集分布: 数据集中的文章按arXiv分类,详细分布见原文。



