AIBench

github2026-04-03 更新2026-04-04 收录

下载链接：

https://github.com/ali-vilab/AIBench

下载链接

链接失效反馈

官方服务：

资源简介：

AIBench是一个用于评估学术插图生成的基准和工具包。它包含300篇来自顶级会议的开放获取论文和5704个用于逻辑和质量检查的QA对。数据集专注于评估现代图像生成模型是否能生成既与源论文逻辑一致又具有美学价值的学术插图。

AIBench is a benchmark and toolkit for evaluating academic illustration generation. It includes 300 open-access papers from top-tier conferences and 5,704 QA pairs for logical and quality validation. This dataset focuses on evaluating whether modern image generation models can produce academic illustrations that are both logically consistent with the source papers and aesthetically pleasing.

创建时间：

2026-04-03

原始信息汇总

AIBench 数据集概述

数据集简介

AIBench 是一个用于评估学术插图生成的基准和工具包。它专注于评估现代图像生成模型能否生成既与源论文逻辑一致，又在美学上可作为学术插图接受的、可用于论文的方法/框架图。

核心特点

首个基于VQA的基准：通过结构化问答评估学术插图质量。
四层次逻辑评估：从低层次组件到高层次语义。
基于VLM的美学评估：在逻辑一致性之外补充风格/视觉质量评估。
解耦设计：推理和评估分离，便于调试和复用。
JSONL数据流：使用结构化的JSONL输入/输出以支持可扩展的批量处理。
多角色评估：支持生成图像 (image_gen)、真实图像 (gt) 和空白图像基线 (blank)。
配置驱动的工作流：模型后端、并行度、重试次数和路径均通过YAML配置控制。

数据集快照

来源：来自顶级会议的300篇开放获取论文。
规模：包含5704个用于逻辑和质量检查的问答对。
质量保证：问答对通过流程生成，并由多位人类专家手动检查。

方法概述

对于逻辑评估，AIBench将评估构建为一系列基于从论文方法文本总结出的逻辑图的视觉问答任务。问题分为四个层次：

组件存在性层次
局部拓扑层次
阶段架构层次
全局语义层次 此设计提供了关于生成插图在何处成功或失败的细粒度、可解释的信号。文本渲染质量也被隐式测试，因为许多问答项要求图中正确生成的标签/标记。

主要发现（来自论文）

模型在学术插图生成任务上的性能差距远大于常见生成任务。
逻辑正确性和美学常常存在冲突；改进一方可能会损害另一方。
强大的推理能力和高密度的视觉生成对此任务都是必需的。
在推理和生成两端的测试时扩展策略可以显著提高性能。

贡献

AIBench：首个结合逻辑和美学维度评估学术插图生成的基于VQA的基准。
可扩展的问答构建框架：从总结的逻辑图生成高质量、多层次的问题。
全面的评估：对最先进的开放/闭源统一模型和文生图模型进行了全面评估，包括测试时扩展分析。

引用

bibtex @article{liao2025aibench, title={AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation}, author={Liao, Zhaohe and Jiang, Kaixun and Liu, Zhihang and Wei, Yujie and Yu, Junqiu and Li, Quanhao and Yu, Hongtao and Li, Pandeng and Wang, Yuzheng and Xing, Zhen and Zhang, Shiwei and Xie, Chen-Wei and Zheng, Yun and Liu, Xihui}, journal={arXiv preprint arXiv:2603.28068}, year={2026} }

搜集汇总

数据集介绍

构建方式

在学术插图生成领域，AIBench数据集的构建过程体现了严谨的科学方法论。该数据集从顶级学术会议中精心筛选了300篇开放获取论文，并基于论文方法文本的逻辑结构构建了多层次的视觉问答任务。通过自动化流程生成初始问答对后，研究团队组织多位领域专家进行人工校验，确保5704个问答对在逻辑严谨性与语义准确性上达到高标准。这种结合自动化生成与人工审核的双重机制，既保障了数据规模的可扩展性，又维护了评估任务的专业深度。

特点

AIBench的核心特征在于其创新的评估框架设计。该数据集首创了基于视觉问答的学术插图生成评估范式，通过组件存在性、局部拓扑结构、阶段架构与全局语义四个逻辑层级进行细粒度分析。其评估体系将逻辑一致性与美学质量解耦，分别采用结构化问答与视觉语言模型进行独立评测，避免了传统黑箱式整体评估的局限性。数据集支持生成图像、真实图像与空白基线三类角色的对比评估，并采用模块化设计，使得推理与评估流程可灵活配置与扩展。

使用方法

使用AIBench进行学术插图生成评估遵循清晰的模块化工作流。研究人员首先准备包含论文方法文本的JSONL格式提示数据，通过配置YAML文件指定生成后端模型，运行推理模块批量生成插图。随后在评估配置中关联生成记录文件，选择评估角色与任务类型，执行自动化评测流程。数据集提供完整的代码工具链，支持从提示格式化、并行化生成到多维度评估的全流程操作，最终输出结构化的评估记录与聚合指标，为模型性能分析提供可解释的量化依据。

背景与挑战

背景概述

学术插图生成作为多模态人工智能领域的前沿方向，旨在将复杂的学术方法论文本转化为直观且逻辑严谨的视觉图示。AIBench数据集由研究团队于2026年提出，其核心研究问题聚焦于评估现代图像生成模型能否产出既符合原文逻辑一致性、又具备学术审美可接受性的论文级框架图。该数据集基于300篇顶级会议的开源论文构建，包含5704个经过人工校验的视觉问答对，通过引入基于视觉问答的逻辑评估与模型驱动的美学评估双维度框架，显著推动了生成模型在专业学术场景下的可解释性与实用性研究。

当前挑战

在学术插图生成领域，核心挑战在于模型需同时理解高密度、长篇幅且逻辑交织的学术文本，并生成语义精确、布局合理的视觉元素，这要求模型具备深层次的跨模态推理与细粒度视觉合成能力。构建AIBench数据集的过程中，研究团队面临两大挑战：一是如何从复杂学术文本中自动化提取并结构化逻辑图谱，以生成多层次、可验证的视觉问答对；二是在评估设计中需平衡逻辑一致性与美学质量之间的潜在冲突，避免单一黑箱式整体评价，从而设计出解耦的、可扩展的VQA式评估流程以提供细粒度性能诊断。

常用场景

经典使用场景

在学术插图生成领域，AIBench数据集为评估生成模型的逻辑一致性与美学质量提供了标准化基准。其经典使用场景在于，研究人员利用该数据集对各类图像生成模型进行系统性测试，通过生成与学术论文方法描述相匹配的框架图或流程图，进而借助其内置的视觉问答评估模块，量化模型在理解复杂学术文本并转化为视觉元素方面的能力。这一过程不仅涵盖了从组件存在性到全局语义的多层次逻辑验证，还引入了基于视觉语言模型的美学评分，从而全面衡量生成插图是否具备直接用于学术出版的潜力。

解决学术问题

AIBench主要解决了学术插图生成领域中长期存在的评估难题。传统方法依赖视觉语言模型之间的整体性比较，其假设在多模态理解达到理想水平时方能成立，然而当面对冗长、密集且逻辑复杂的论文方法与图表时，这种评估方式显得脆弱且不可靠。该数据集通过引入视觉问答式的逻辑评估与模型驱动的美学评估，将评估过程解构为细粒度、可解释的问答任务，显著降低了对单一黑箱整体判断的依赖。此举为衡量生成内容是否同时满足逻辑严谨性与视觉可接受性提供了可靠且结构化的方法论，填补了该细分研究方向的空白。

衍生相关工作

围绕AIBench数据集，已衍生出一系列关注专业领域图文生成与评估的经典研究工作。这些工作主要沿两个方向展开：一是改进评估方法，例如探索更细粒度的逻辑图构建技术或融合人类反馈的混合评估框架，以进一步提升评估的准确性与鲁棒性；二是推动模型创新，部分研究利用该数据集的评估信号，专门训练或微调能够更好理解学术文本结构与视觉表达关系的生成模型。这些衍生工作共同深化了对于如何让AI系统胜任高逻辑密度、高美学要求的专业内容创作这一核心问题的理解，并促进了多模态大模型在垂直领域的应用探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集