mawadalla/scientific-figures-captions-context

Name: mawadalla/scientific-figures-captions-context
Creator: mawadalla
Published: 2023-11-27 21:47:52
License: 暂无描述

Hugging Face2023-11-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mawadalla/scientific-figures-captions-context

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为科学图表、标题和上下文，包含从arXiv研究论文中提取的约690,000张科学图表及其标题和上下文。数据集的主要用途是视觉问答和文档问答任务。数据集的配置文件中包含一个名为Data的配置，数据文件为merged.json。数据集中的每个对象代表一篇研究论文，包含图表列表，每个图表都有其标题和上下文。

提供机构：

mawadalla

原始信息汇总

数据集卡片：Scientific Figures, Captions, and Context

数据集描述

数据集概述

该数据集包含约690,000张来自约150,000篇arXiv科学论文的图表。每个JSON文件中的对象代表一篇研究论文，包含一系列图表及其标题和周围上下文。

类别	数量
图表	690883
论文	152504

数据实例

merged.json文件中的一个对象示例：

json { [ { image_filename: dataset/figures/example.png (或其他类型), label: fig_example, caption: 该图表的示例标题, context: [该图表被引用的示例上下文, 最多600个字符] }, ... ] }

数据集创建

我们利用了arXiv论文的批量访问。

使用方法

merged.json文件是图表文件名与其标题、标签和上下文之间的映射。使用时，必须提取位于dataset/figures/下的部分，并将原始图像保存在同一目录中，以便它们与image_filename字段匹配。图像命名格式为<paper id>-<figure name>，其中paper id是arXiv给出的ID，figure name是论文原始格式中图表的名称。

5,000+

优质数据集

54 个

任务类型

进入经典数据集