five

mawadalla/scientific-figures-captions-xl

收藏
Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mawadalla/scientific-figures-captions-xl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从arXiv学术论文中提取的约420万条科学图表及其对应的标题,适用于计算机视觉和自然语言处理领域的研究,特别是图像标题生成和自动化图表分析任务。数据集以Parquet格式存储,包含两列:`image_filename`(图像文件的相对路径)和`caption`(与每个图像相关的文本标题)。图像存储在`dataset/figures/`目录下,并以多部分ZIP文件的形式压缩,以便高效处理大规模数据集。

该数据集包含从arXiv学术论文中提取的约420万条科学图表及其对应的标题,适用于计算机视觉和自然语言处理领域的研究,特别是图像标题生成和自动化图表分析任务。数据集以Parquet格式存储,包含两列:`image_filename`(图像文件的相对路径)和`caption`(与每个图像相关的文本标题)。图像存储在`dataset/figures/`目录下,并以多部分ZIP文件的形式压缩,以便高效处理大规模数据集。
提供机构:
mawadalla
原始信息汇总

科学图表及标题数据集

数据集概述

该数据集包含约420万条科学图表及其对应标题,这些数据是从arXiv上的学术论文中提取的。数据集旨在用于计算机视觉和自然语言处理领域的研究,特别是与图像标题和自动图表分析相关的任务。

数据集结构

数据集以Parquet数据框的形式组织,包含以下两列:

  • image_filename:包含图像文件的相对路径。
  • caption:包含与每个图像相关联的文本标题。

图像存储在dataset/figures/目录下,并被压缩成多个部分(.z01, .z02, ..., .z103)和一个最终的.zip文件,以便高效处理大型数据集。

提取说明

要访问图像,必须先解压多部分ZIP存档。确保所有存档部分(.z01到.z103和.zip文件)在同一目录中。大多数解压工具将无缝识别和处理多部分ZIP文件。

以下是使用命令行和unzip的示例: bash

导航到包含压缩部分的目录

cd dataset/figures

使用unzip解压第一组图像

unzip compressedfigures.zip

合并第二组图像

cat compressedfigures_part2* > compressedfigures_part2.tar.gz

解压第二组图像

tar xf compressedfigures_part2.tar.gz

这将把内容解压到dataset/figures/目录中。确保有足够的存储空间来容纳解压后的图像。

使用示例

要在Python项目中使用数据集,需要将Parquet文件读入DataFrame。以下是使用pandas的示例: python import pandas as pd

将数据集加载到DataFrame中

df = pd.read_parquet(dataset.parquet)

显示前几条记录

df.head()

加载数据集后,可以按以下方式使用: python from PIL import Image import matplotlib.pyplot as plt

显示图像及其标题的示例函数

def show_image_with_caption(image_path, caption): img = Image.open(image_path) plt.imshow(img) plt.title(caption) plt.axis(off) # 隐藏坐标轴 plt.show()

显示第一张图像及其标题

first_image_path = df.loc[0, image_filename] first_caption = df.loc[0, caption] show_image_with_caption(first_image_path, first_caption)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作