mawadalla/scientific-figures-captions-xl
收藏科学图表及标题数据集
数据集概述
该数据集包含约420万条科学图表及其对应标题,这些数据是从arXiv上的学术论文中提取的。数据集旨在用于计算机视觉和自然语言处理领域的研究,特别是与图像标题和自动图表分析相关的任务。
数据集结构
数据集以Parquet数据框的形式组织,包含以下两列:
image_filename:包含图像文件的相对路径。caption:包含与每个图像相关联的文本标题。
图像存储在dataset/figures/目录下,并被压缩成多个部分(.z01, .z02, ..., .z103)和一个最终的.zip文件,以便高效处理大型数据集。
提取说明
要访问图像,必须先解压多部分ZIP存档。确保所有存档部分(.z01到.z103和.zip文件)在同一目录中。大多数解压工具将无缝识别和处理多部分ZIP文件。
以下是使用命令行和unzip的示例:
bash
导航到包含压缩部分的目录
cd dataset/figures
使用unzip解压第一组图像
unzip compressedfigures.zip
合并第二组图像
cat compressedfigures_part2* > compressedfigures_part2.tar.gz
解压第二组图像
tar xf compressedfigures_part2.tar.gz
这将把内容解压到dataset/figures/目录中。确保有足够的存储空间来容纳解压后的图像。
使用示例
要在Python项目中使用数据集,需要将Parquet文件读入DataFrame。以下是使用pandas的示例:
python
import pandas as pd
将数据集加载到DataFrame中
df = pd.read_parquet(dataset.parquet)
显示前几条记录
df.head()
加载数据集后,可以按以下方式使用: python from PIL import Image import matplotlib.pyplot as plt
显示图像及其标题的示例函数
def show_image_with_caption(image_path, caption): img = Image.open(image_path) plt.imshow(img) plt.title(caption) plt.axis(off) # 隐藏坐标轴 plt.show()
显示第一张图像及其标题
first_image_path = df.loc[0, image_filename] first_caption = df.loc[0, caption] show_image_with_caption(first_image_path, first_caption)



