FigureBench

Name: FigureBench
Creator: 西湖大学·工程学院
Published: 2026-02-04 02:41:43
License: 暂无描述

arXiv2026-02-04 更新2026-02-05 收录

下载链接：

https://github.com/ResearAI/AutoFigure

下载链接

链接失效反馈

官方服务：

资源简介：

FigureBench是由西湖大学团队构建的首个面向长文本科学插图生成的大规模基准数据集，包含3300组高质量科学文本-插图对，覆盖论文、综述、博客和教材四类来源。数据集平均文本长度达10300词，包含41.2%的图文密度和6.4个平均形状组件，通过GPT-5筛选和人工标注（Cohen's κ=0.91）确保质量。该数据集旨在解决科学插图自动生成中结构保真度与美学表现的平衡问题，为AI科学家提供可视化表达能力评估基准。

FigureBench is the first large-scale benchmark dataset for long-text scientific figure generation, developed by the research team at Westlake University. It contains 3,300 high-quality scientific text-figure pairs sourced from four categories: academic papers, review articles, blog posts, and textbooks. The dataset has an average text length of 10,300 words, with a text-figure density of 41.2% and an average of 6.4 shape components per pair. Its quality is guaranteed via GPT-5 filtering and manual annotation, with a Cohen's κ value of 0.91. This dataset aims to address the trade-off between structural fidelity and aesthetic performance in automatic scientific figure generation, providing an evaluation benchmark for AI scientists to assess their visual expression capabilities.

提供机构：

西湖大学·工程学院

创建时间：

2026-02-04

原始信息汇总

AutoFigure数据集概述

数据集基本信息

数据集名称: AutoFigure
关联基准数据集: FigureBench
发布日期: 未明确（关联研究发表于ICLR 2026）
许可证: MIT License
编程语言: Python 3.8+
GitHub地址: https://github.com/ResearAI/AutoFigure
基准数据集HuggingFace地址: https://huggingface.co/datasets/WestlakeNLP/FigureBench

核心功能

文本到图表: 根据自然语言描述直接生成图表。
论文到图表: 从PDF中提取方法论并自动创建可视化图表。
迭代优化: 采用双智能体系统（生成+评估）进行持续质量优化。
多格式输出: 输出为SVG或mxGraph XML格式（完全兼容draw.io）。
图像增强: 可选的人工智能后处理，用于美学美化。
Web界面: 交互式Next.js前端，便于生成和编辑。

基准数据集FigureBench详情

数据集目的: 首个用于从长文本生成科学插图的大规模基准。
数据总量: 3,300个样本
平均文本长度: 超过10,000个词元
平均文本密度: 41.2%
平均复杂度: 约5.3个组件

数据类别与统计

类别	样本数量	平均词元数	文本密度	复杂度
论文	3,200	12,732	42.1%	高
博客	20	4,047	46.0%	中
综述	40	2,179	43.8%	高
教科书	40	352	25.0%	低

使用方法

Python SDK安装

bash

基础安装

pip install autofigure

带PDF支持（用于论文到图表）

pip install autofigure[pdf]

带图像增强

pip install autofigure[enhancement]

完整安装（推荐）

pip install autofigure[full]

加载基准数据集

python from datasets import load_dataset dataset = load_dataset("WestlakeNLP/FigureBench")

基本生成示例（文本到图表）

python from autofigure import AutoFigureAgent, Config

config = Config( generation_api_key="your-api-key", generation_provider="openrouter", generation_model="google/gemini-2.5-pro", ) agent = AutoFigureAgent(config) result = agent.generate( description="A flowchart showing transformer training pipeline", max_iterations=5, output_format="svg", topic="paper" )

配置选项

支持的LLM提供商

OpenRouter: 基础URL为openrouter.ai/api/v1，推荐模型gemini-2.5-pro
Bianxie: 基础URL为api.bianxie.ai/v1，推荐模型gemini-2.5-pro
Google: 基础URL为generativelanguage...，推荐模型gemini-2.5-pro

关键生成设置

generation_api_key: 图表生成的API密钥（必需）
generation_model: 模型名称（默认为提供商默认值）
generation_provider: 提供商：openrouter、bianxie、gemini（默认为openrouter）
max_iterations: 最大优化迭代次数（默认为5）
quality_threshold: 质量阈值（0-10）（默认为9.0）

输出结果

success: 生成是否成功
svg_path: 生成的SVG文件路径
mxgraph_path: 生成的mxGraph XML文件路径
preview_path: PNG预览图像路径
enhanced_paths: 所有增强图像路径列表
final_score: 最终质量评分（0-10）
methodology_text: 提取的方法论文本（来自论文）

引用格式

bibtex @inproceedings{ zhu2026autofigure, title={AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations}, author={Minjun Zhu and Zhen Lin and Yixuan Weng and Panzhong Lu and Qiujie Xie and Yifan Wei and Sifan Liu and Qiyao Sun and Yue Zhang}, booktitle={The Fourteenth International Conference on Learning Representations}, year={2026}, url={https://openreview.net/forum?id=5N3z9JQJKq} }

搜集汇总

数据集介绍

构建方式

在科学可视化领域，高质量插图的自动生成一直是学术交流中的关键挑战。FigureBench的构建采用了严谨的多阶段流程，旨在创建首个面向长文本科学插图生成的大规模基准。数据集的构建始于从Research-14K数据集中随机抽取400篇科学论文，利用GPT-5筛选出最能代表核心方法论的概念性插图，并排除了数据驱动的图表。随后通过双人独立标注与一致性验证，确保了200对高质量文本-图像对的精确性，标注者间一致性系数达到0.91。为进一步增强数据多样性，研究团队从综述、技术博客和教材中手动采集了100个样本，最终形成一个包含300个测试实例的高质量集合。基于此，团队微调了一个视觉语言模型作为自动过滤器，从Research-14K语料库中构建了包含3000个样本的大规模开发集，从而形成了总计3300对文本-图像的数据集，涵盖了论文、综述、博客和教材等多种文档类型。

特点

FigureBench作为科学插图生成领域的首个大规模基准，其显著特点体现在多样性与复杂性上。数据集覆盖了从研究论文、学术综述到技术博客和教材的广泛文本类型，确保了评估场景的全面性。统计数据显示，其文本长度跨度极大，从教材的平均352个词元到论文的12732个词元，凸显了对长上下文推理能力的要求。视觉层面，图像平均包含5.3个组件和6.4种形状，文本密度高达41.2%，平均使用6.2种颜色，这些指标共同揭示了数据集在结构复杂性与信息丰富度上的挑战。此外，所有数据均遵循开源许可，并经过严格的质量控制，其时间跨度直至2025年，保证了内容的时效性与代表性。

使用方法

FigureBench为评估自动科学插图生成模型提供了系统化的框架。数据集明确区分了测试集与开发集的功能：300个样本的测试集专用于模型性能的最终评估，而3000个样本的开发集则支持训练、开发与实验探索。评估协议基于VLM-as-a-judge范式，结合了参考评分与盲态成对比较两种方法。参考评分要求视觉语言模型根据完整文本、真实图像与生成图像，在视觉设计、沟通效能与内容保真度三个维度下的八项子指标进行评分；盲态比较则在不告知图像来源的情况下，让模型基于七项标准选择更优的插图。尽管自动化评估提供了可扩展的度量，研究仍补充了领域专家的人为评估，邀请论文第一作者对生成结果进行多维评分、强制排名与出版意向选择，从而为模型的实际效用提供了黄金标准。

背景与挑战

背景概述

FigureBench作为首个面向长文本科学插图生成的大规模基准数据集，由西湖大学工程学院的朱敏俊、林震、翁艺璇等研究人员于2026年构建，并发表于ICLR会议。该数据集旨在解决科学交流中高质量插图手动创作效率低下的核心瓶颈，其核心研究问题聚焦于如何从长篇科学文本中自动生成结构准确且视觉美观的出版物级别科学插图。FigureBench包含3300个高质量的文本-插图对，覆盖学术论文、综述、博客和教科书等多种来源，为评估和推动自动科学插图生成模型的发展奠定了重要基础，对提升科学传播的效率和可及性具有深远影响力。

当前挑战

FigureBench所针对的领域挑战在于实现从长篇科学文本到高质量科学插图的精准映射，这要求模型不仅需深度理解文本中的复杂逻辑关系和领域知识，还需在视觉呈现上平衡结构保真度与美学流畅性。具体而言，该任务面临长上下文推理、专业术语处理、多概念关系建模以及生成图像的结构准确性保障等难题。在数据集构建过程中，挑战主要体现在高质量样本的筛选与标注上，包括从海量文献中提取最具代表性的概念性插图、确保视觉元素与文本描述的显式对应，以及通过多人标注达成高一致性（Cohen's κ = 0.91），同时还需保证数据来源的多样性与版权合规性。

常用场景

经典使用场景

在科学可视化与人工智能交叉领域，FigureBench作为首个面向长文本科学插图生成的大规模基准数据集，其经典使用场景集中于评估和推动自动化科学插图生成模型的性能。该数据集通过精心构建的3300个高质量文本-插图对，覆盖学术论文、综述、技术博客及教科书等多种文档类型，为研究者提供了系统测试模型在长上下文理解、结构规划与美学渲染等方面能力的标准化平台。基于VLM-as-a-judge范式的评估协议，能够从视觉设计、传播效果与内容保真度等多个维度对生成结果进行量化分析，从而为自动化科学插图生成技术的迭代与优化奠定坚实基础。

解决学术问题

FigureBench的构建有效解决了科学插图自动化生成领域长期存在的若干关键学术问题。传统文本到图像生成模型在处理长篇幅科学文本时，往往难以平衡结构准确性与视觉美观性，导致生成的插图缺乏逻辑严谨性与出版级质量。该数据集通过提供大规模、高质量且覆盖多样文本类型的配对样本，使得研究者能够系统探究模型在长上下文语义解析、多层次信息蒸馏以及自定义视觉拓扑生成等方面的能力瓶颈。其意义在于首次为长上下文科学插图设计任务建立了可复现的评估基准，推动了生成模型从简单图像合成向复杂科学逻辑可视化方向的范式转变，为AI辅助科研沟通提供了重要的基础设施。

衍生相关工作

围绕FigureBench数据集，研究者已衍生出若干重要的相关研究工作。最具代表性的是与其同步提出的AUTOFIGURE框架，该框架基于推理渲染范式，通过语义解析与布局规划、美学渲染与文本精修两阶段流程，实现了长文本到高质量科学插图的端到端生成。此外，该数据集也促进了针对科学插图生成的评估方法论创新，如基于VLM的自动化多维度评分体系与盲对比评估协议。在技术路径上，FigureBench启发了对代码生成方法、多智能体框架以及端到端文本到图像模型在科学可视化任务上的系统性比较研究，为后续工作如科学插图风格控制、跨领域适应性扩展以及动态交互式图解生成等方向提供了重要的基准参照与实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集