DiagramBank
收藏DiagramBank 数据集概述
数据集简介
DiagramBank 是一个大规模、可用于检索的科学示意图设计范例数据集,其数据来源于顶级人工智能/机器学习出版物。该数据集旨在支持图表检索、范例驱动的科学图表创作以及超越生成的更广泛多模态研究。
数据集内容与结构
每个图表记录均包含图表级和论文级的丰富信息。元数据可能包括:
- 图表图像及标题。
- 图表上下文:论文正文中引用该图表的段落。
- 论文标题与摘要。
- 额外的 OpenReview 元数据,如决策状态、审稿人评分、关键词/主题领域、URL、BibTeX 等。
- 基于 CLIP 的标签和置信度分数。
数据集提供核心检索构件,如 FAISS 索引和 DuckDB 数据库。
数据获取与安装
下载选项
默认下载包含被接收论文的图表和核心文件,数据量约 60 GB。可通过运行 python faiss/download_diagrambank.py 并设置 FIG_RAG_DIR 环境变量指定下载目录。脚本提供多种下载子集选项。
文件目录结构
下载后的数据目录结构包含 faiss 和 OpenReview 两个主要部分。faiss 目录下包含基于标题、摘要和标题的索引文件及数据库。OpenReview 目录下按会议(ICLR, ICML, NeurIPS, TMLR)和年份组织图表图像文件。
主要用途
检索增强的图表创作
根据论文的标题、摘要或标题检索相似的范例图表,以指导概述性图表的布局、风格、分组、图标使用和构图。
多模态检索与基准测试
构建和评估基于图表的科学内容检索系统,探索从粗粒度到细粒度的检索。
图表理解与分析
用于图表类型分类、风格分类、主题/风格聚类等任务的训练或评估,研究不同会议或年份的图表惯例。
结合视觉信号的论文级分析与科学计量学
利用链接的论文元数据,探索图表属性与论文录用决策、审稿分数、会议或年份之间的关联。
上下文感知任务
利用图表上下文段落,支持需要超越标题信息的任务,如上下文感知的图表检索、图表-文本对齐与 grounding 研究。
使用说明
使用前需设置 OpenAI API 密钥以嵌入查询文本。通过提供的 Jupyter Notebook 演示脚本,可基于论文的标题、摘要和标题进行分层检索,获取相似的图表。
其他信息
- 数据集同时在 Hugging Face 平台托管:https://huggingface.co/datasets/zhangt20/DiagramBank
- 数据来源于公开的科学 PDF 文件,使用时需注意遵循原始作者/出版商的许可条款,并建议进行来源追踪。
- 引用本数据集时,请使用提供的 BibTeX 条目。



