DiagramBank

github2026-02-16 更新2026-02-17 收录

下载链接：

https://github.com/csml-rpi/DiagramBank

下载链接

链接失效反馈

官方服务：

资源简介：

DiagramBank是一个大规模、可用于检索的科学示意图数据集，收集自顶级AI/ML出版物，并配有丰富的论文元数据和图表局部上下文。它旨在支持图表检索、基于范例的科学图表创作以及超越生成的更广泛的多模态研究。

DiagramBank is a large-scale, retrievable scientific diagram dataset curated from top-tier AI/ML publications, equipped with rich paper metadata and local contextual information of the diagrams. It aims to support diagram retrieval, example-based scientific diagram generation, and broader multimodal research beyond basic generation.

创建时间：

2026-02-02

原始信息汇总

DiagramBank 数据集概述

数据集简介

DiagramBank 是一个大规模、可用于检索的科学示意图设计范例数据集，其数据来源于顶级人工智能/机器学习出版物。该数据集旨在支持图表检索、范例驱动的科学图表创作以及超越生成的更广泛多模态研究。

数据集内容与结构

每个图表记录均包含图表级和论文级的丰富信息。元数据可能包括：

图表图像及标题。
图表上下文：论文正文中引用该图表的段落。
论文标题与摘要。
额外的 OpenReview 元数据，如决策状态、审稿人评分、关键词/主题领域、URL、BibTeX 等。
基于 CLIP 的标签和置信度分数。

数据集提供核心检索构件，如 FAISS 索引和 DuckDB 数据库。

数据获取与安装

下载选项

默认下载包含被接收论文的图表和核心文件，数据量约 60 GB。可通过运行 python faiss/download_diagrambank.py 并设置 FIG_RAG_DIR 环境变量指定下载目录。脚本提供多种下载子集选项。

文件目录结构

下载后的数据目录结构包含 faiss 和 OpenReview 两个主要部分。faiss 目录下包含基于标题、摘要和标题的索引文件及数据库。OpenReview 目录下按会议（ICLR, ICML, NeurIPS, TMLR）和年份组织图表图像文件。

主要用途

检索增强的图表创作

根据论文的标题、摘要或标题检索相似的范例图表，以指导概述性图表的布局、风格、分组、图标使用和构图。

多模态检索与基准测试

构建和评估基于图表的科学内容检索系统，探索从粗粒度到细粒度的检索。

图表理解与分析

用于图表类型分类、风格分类、主题/风格聚类等任务的训练或评估，研究不同会议或年份的图表惯例。

结合视觉信号的论文级分析与科学计量学

利用链接的论文元数据，探索图表属性与论文录用决策、审稿分数、会议或年份之间的关联。

上下文感知任务

利用图表上下文段落，支持需要超越标题信息的任务，如上下文感知的图表检索、图表-文本对齐与 grounding 研究。

使用说明

使用前需设置 OpenAI API 密钥以嵌入查询文本。通过提供的 Jupyter Notebook 演示脚本，可基于论文的标题、摘要和标题进行分层检索，获取相似的图表。

其他信息

数据集同时在 Hugging Face 平台托管：https://huggingface.co/datasets/zhangt20/DiagramBank
数据来源于公开的科学 PDF 文件，使用时需注意遵循原始作者/出版商的许可条款，并建议进行来源追踪。
引用本数据集时，请使用提供的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在科学可视化研究领域，DiagramBank数据集的构建体现了对高质量学术图表资源的系统性整合。该数据集通过从顶级人工智能与机器学习会议（如ICLR、ICML、NeurIPS、TMLR）的公开论文PDF中挖掘科学示意图，并提取丰富的元数据层。构建过程不仅采集了图表图像与标题，还关联了论文的标题、摘要、正文中引用该图表的段落，以及来自OpenReview的审稿决策、评分、关键词等附加信息。数据集进一步利用CLIP模型为图表生成标签与置信度，并预先构建了FAISS索引与DuckDB数据库，以支持高效的多粒度检索。

使用方法

使用DiagramBank进行检索增强的图表创作或研究，首先需通过提供的Python脚本下载数据集与核心文件，并设置相应的环境变量。用户可通过调整参数选择下载已接受论文、全部论文或仅拒绝论文的图表子集。检索功能通过分层的FAISS索引实现：用户可基于论文标题、摘要或图表标题分别进行查询，并通过组合这些条件进行精细化检索。数据集附带的Jupyter Notebook示例演示了如何输入自定义的标题、摘要与图注，以获取相关的图表范例。对于生成式应用，建议遵循负责任使用原则，追踪图表来源并进行适当引用。

背景与挑战

背景概述

在人工智能与机器学习研究领域，科学示意图作为传达复杂概念与模型架构的核心视觉载体，其自动化生成一直是学术出版流程中的瓶颈。DiagramBank数据集应运而生，由研究人员Tingwen Zhang、Ling Yue等人于2026年构建，旨在为检索增强生成（RAG）提供大规模、高质量的科学示意图范例库。该数据集从顶级AI/ML会议论文中系统挖掘图表，并关联丰富的论文元数据与上下文信息，核心研究问题聚焦于如何通过检索驱动的方式辅助科研人员创作出版级示意图，从而推动多模态检索、图表理解与科学计量学等交叉领域的发展。

当前挑战

DiagramBank致力于解决科学示意图检索与生成中的关键挑战。在领域层面，其核心挑战在于如何精准建模示意图的语义结构与视觉布局，以支持从概念合成到样式仿真的复杂创作需求，这超越了传统的图像分类或目标检测任务。在构建过程中，挑战体现在多源异构数据的整合与对齐上，包括从PDF中提取高质量图表图像、关联零散的论文元数据（如标题、摘要、图注及文中引用段落），并确保数据在跨会议与年份维度上的一致性与可追溯性。此外，为支持分层检索而构建高效索引结构，也需平衡计算效率与语义保真度。

常用场景

经典使用场景

在科学文献创作领域，DiagramBank数据集最经典的使用场景是检索增强的图表创作。研究者通过输入论文标题、摘要或图表标题，能够从数据集中检索出风格、布局或主题相似的图表范例。这些范例为设计新的科学示意图提供了直观的参考，帮助作者在构思图表结构、选择图标和安排注释时获得灵感，从而高效地生成符合学术出版标准的高质量图表。

解决学术问题

DiagramBank主要解决了科学图表自动生成中的关键瓶颈问题。传统图表生成往往缺乏对科学概念合成、拓扑关系表达和视觉可读性的深入理解。该数据集通过提供大量真实的高质量图表及其多层次的文本背景，支持图表检索、分类和风格分析等研究，促进了多模态检索系统的发展，并为图表理解与生成之间的对齐问题提供了实证基础。

实际应用

在实际应用中，DiagramBank可集成到智能写作工具或学术出版流程中，辅助研究人员快速设计论文中的示意图。它也能用于科学计量学分析，探索图表风格与论文接受率、研究领域或出版年份之间的关联。此外，教育机构可利用该数据集培训学生掌握科学可视化技能，提升学术交流的效率与质量。

数据集最近研究