mawadalla/scientific-figures-captions-xl

Name: mawadalla/scientific-figures-captions-xl
Creator: mawadalla
Published: 2024-02-24 23:03:25
License: 暂无描述

Hugging Face2024-02-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mawadalla/scientific-figures-captions-xl

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从arXiv学术论文中提取的约420万条科学图表及其对应的标题，适用于计算机视觉和自然语言处理领域的研究，特别是图像标题生成和自动化图表分析任务。数据集以Parquet格式存储，包含两列：`image_filename`（图像文件的相对路径）和`caption`（与每个图像相关的文本标题）。图像存储在`dataset/figures/`目录下，并以多部分ZIP文件的形式压缩，以便高效处理大规模数据集。

提供机构：

mawadalla

原始信息汇总

科学图表及标题数据集

数据集概述

该数据集包含约420万条科学图表及其对应标题，这些数据是从arXiv上的学术论文中提取的。数据集旨在用于计算机视觉和自然语言处理领域的研究，特别是与图像标题和自动图表分析相关的任务。

数据集结构

数据集以Parquet数据框的形式组织，包含以下两列：

image_filename：包含图像文件的相对路径。
caption：包含与每个图像相关联的文本标题。

图像存储在dataset/figures/目录下，并被压缩成多个部分（.z01, .z02, ..., .z103）和一个最终的.zip文件，以便高效处理大型数据集。

提取说明

要访问图像，必须先解压多部分ZIP存档。确保所有存档部分（.z01到.z103和.zip文件）在同一目录中。大多数解压工具将无缝识别和处理多部分ZIP文件。

以下是使用命令行和unzip的示例： bash

导航到包含压缩部分的目录

cd dataset/figures

使用unzip解压第一组图像

unzip compressedfigures.zip

合并第二组图像

cat compressedfigures_part2* > compressedfigures_part2.tar.gz

解压第二组图像

tar xf compressedfigures_part2.tar.gz

这将把内容解压到dataset/figures/目录中。确保有足够的存储空间来容纳解压后的图像。

使用示例

要在Python项目中使用数据集，需要将Parquet文件读入DataFrame。以下是使用pandas的示例： python import pandas as pd

将数据集加载到DataFrame中

df = pd.read_parquet(dataset.parquet)

显示前几条记录

df.head()

加载数据集后，可以按以下方式使用： python from PIL import Image import matplotlib.pyplot as plt

显示图像及其标题的示例函数

def show_image_with_caption(image_path, caption): img = Image.open(image_path) plt.imshow(img) plt.title(caption) plt.axis(off) # 隐藏坐标轴 plt.show()

显示第一张图像及其标题

first_image_path = df.loc[0, image_filename] first_caption = df.loc[0, caption] show_image_with_caption(first_image_path, first_caption)

5,000+

优质数据集

54 个

任务类型

进入经典数据集