cmarkea/aftdb

Name: cmarkea/aftdb
Creator: cmarkea
Published: 2024-08-22 13:20:39
License: 暂无描述

Hugging Face2024-08-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cmarkea/aftdb

下载链接

链接失效反馈

官方服务：

资源简介：

Arxiv Figures & Tables Database (AFTdb)数据集包含了从arXiv平台获取的科学文章中的图表和表格。该数据集的目的是训练专门处理文档类型对象（如图表、功能图、表格等）的多模态模型，而不是处理摄影类图像。数据集提供了每个对象的标题、摘要和说明，并且所有文本数据都有英文和法文版本。数据集分为图表和表格两部分，表格部分还提供了LaTeX源代码。数据集可以通过流式加载或本地下载的方式使用，并提供了详细的统计描述和字段说明。

提供机构：

cmarkea

原始信息汇总

数据集概述

名称: Arxiv Figures & Tables Database (AFTdb)

来源: 数据集由arXiv平台上的科学文章中的图表和表格组成。

目的: 用于训练专门处理文档类型对象（如图表、功能图、表格等）的图像的多模态模型，而非摄影图像。

内容:

图像类型: 图表和表格。
文本数据: 标题、摘要和图表说明，提供英文和法文版本。
附加信息: 每篇文章的总结，用于提供额外的上下文信息。

数据结构:

id: 每个观测的唯一标识符。
paper_id: 每篇文章的唯一arXiv标识符。
type: 对象类型，分为figure和table。
authors: 文章作者。
categories: 文章的arXiv分类。
title: 文章标题。
summary: 文章摘要。
caption: 文档类型对象的说明。
image: 文档类型对象的图像。
data: 对于图表，是图表文件名；对于表格，是LaTeX表格代码。
newcommands: 文章中使用的LaTeX新命令列表。

统计描述:

文章数量: 22,893篇。
作者数量: 90,165位。
图表（训练集）: 157,944个。
图表（测试集）: 3,579个。
表格（训练集）: 16,415个。
表格（测试集）: 395个。
总字数: 英文标题234,072字，法文标题308,187字；英文摘要3,879,940字，法文摘要4,536,101字；英文说明7,689,270字，法文说明8,513,199字。

数据集加载:

图表部分: 建议使用流模式加载。
表格部分: 可以直接本地下载。
同时加载: 可以同时加载图表和表格。

许可: Apache-2.0

语言: 英语和法语

标签: arXiv, multimodal, document-type objects

任务类别: text-generation, text-to-image, image-to-text

数据集分布: 数据集中的文章按arXiv分类，详细分布见原文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集