five

mawadalla/scientific-figures-captions-context

收藏
Hugging Face2023-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mawadalla/scientific-figures-captions-context
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为科学图表、标题和上下文,包含从arXiv研究论文中提取的约690,000张科学图表及其标题和上下文。数据集的主要用途是视觉问答和文档问答任务。数据集的配置文件中包含一个名为Data的配置,数据文件为merged.json。数据集中的每个对象代表一篇研究论文,包含图表列表,每个图表都有其标题和上下文。

该数据集名为科学图表、标题和上下文,包含从arXiv研究论文中提取的约690,000张科学图表及其标题和上下文。数据集的主要用途是视觉问答和文档问答任务。数据集的配置文件中包含一个名为Data的配置,数据文件为merged.json。数据集中的每个对象代表一篇研究论文,包含图表列表,每个图表都有其标题和上下文。
提供机构:
mawadalla
原始信息汇总

数据集卡片:Scientific Figures, Captions, and Context

数据集描述

数据集概述

该数据集包含约690,000张来自约150,000篇arXiv科学论文的图表。每个JSON文件中的对象代表一篇研究论文,包含一系列图表及其标题和周围上下文。

类别 数量
图表 690883
论文 152504

数据实例

merged.json文件中的一个对象示例:

json { [ { image_filename: dataset/figures/example.png (或其他类型), label: fig_example, caption: 该图表的示例标题, context: [该图表被引用的示例上下文, 最多600个字符] }, ... ] }

数据集创建

我们利用了arXiv论文的批量访问。

使用方法

merged.json文件是图表文件名与其标题、标签和上下文之间的映射。使用时,必须提取位于dataset/figures/下的部分,并将原始图像保存在同一目录中,以便它们与image_filename字段匹配。图像命名格式为<paper id>-<figure name>,其中paper id是arXiv给出的ID,figure name是论文原始格式中图表的名称。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作