BizGenEval
收藏arXiv2026-03-27 更新2026-03-28 收录
下载链接:
https://aka.ms/BizGenEval
下载链接
链接失效反馈官方服务:
资源简介:
BizGenEval是由微软亚洲研究院联合多所高校构建的商业视觉内容生成系统性评测基准,涵盖幻灯片、图表、网页、海报和科学图表五大专业领域。该数据集包含400条精心设计的提示词及8000道人工验证的检查问题,通过文本渲染、布局控制、属性绑定和知识推理四大能力维度构建20项评估任务。数据来源于真实商业设计素材与跨学科知识主题,采用专家人工标注与多模态大模型自动评估相结合的方式构建,旨在解决当前生成模型在复杂商业场景中结构化约束满足与领域知识融合的瓶颈问题。
BizGenEval is a systematic benchmark for commercial visual content generation, developed by Microsoft Research Asia (MSRA) in collaboration with multiple universities, covering five professional domains including slides, charts, web pages, posters, and scientific diagrams. This dataset contains 400 meticulously designed prompts and 8,000 manually verified inspection questions. A total of 20 evaluation tasks are established across four core capability dimensions: text rendering, layout control, attribute binding, and knowledge reasoning. The dataset is sourced from real commercial design materials and interdisciplinary knowledge topics, and is constructed through a hybrid framework combining expert manual annotation and automatic evaluation powered by multimodal large language models (LLMs). It aims to address the bottleneck issues of current generative models in satisfying structured constraints and integrating domain knowledge in complex commercial scenarios.
提供机构:
微软公司; 上海交通大学; 西安交通大学; 复旦大学
创建时间:
2026-03-27
原始信息汇总
BizGenEval 数据集概述
数据集基本信息
- 数据集名称:BizGenEval
- 核心描述:一个用于商业视觉内容生成的系统性基准测试。
- 研究团队:Yan Li, Zezi Zeng, Ziwei Zhou, Xin Gao, Muzhao Tian, Yifan Yang, Mingxi Cheng, Qi Dai, Yuqing Yang, Lili Qiu, Zhendong Wang, Zhengyuan Yang, Xue Yang, Lijuan Wang, Ji Li, Chong Luo。
- 对应作者:Yifan Yang, Xue Yang。
数据集规模与构成
- 内容领域:5个
- 能力维度:4个
- 精选样本:400个
- 已验证问题:8,000个
- 评估模型:26个
内容领域
- 🌐 网页
- 📑 幻灯片
- 📊 图表
- 🪧 海报
- 🔬 科学图表
能力维度
- 📐 布局控制
- 🎨 属性绑定
- ✍️ 文本渲染
- 🧠 知识推理
评估模型排行榜(综合排名)
| 排名 | 模型简称 | 模型全名 | 困难子集得分 | 简单子集得分 |
|---|---|---|---|---|
| 🥇 | NB | Nano-Banana-Pro | 76.7% | 93.7% |
| 🥈 | NB | Nano-Banana-2.0 | 68.5% | 92.5% |
| 🥉 | S5 | Seedream-5.0 | 48.8% | 79.2% |
| 4 | GI | GPT-Image-1.5 | 35.9% | 81.6% |
| 5 | S4 | Seedream-4.5 | 30.1% | 66.2% |
| 6 | WT | Wan2.6-T2I | 21.9% | 58.7% |
| 7 | S4 | Seedream-4.0 | 14.3% | 60.1% |
| 8 | E | Emu3.5 | 13.2% | 40.2% |
| 9 | H3 | HunyuanImage-3.0 | 13.0% | 40.1% |
| 10 | GI | GPT-Image-1.0 | 11.2% | 52.4% |
| 11 | H2 | HunyuanImage-2.1 | 8.6% | 27.7% |
| 12 | ZI | Z-Image | 8.2% | 43.8% |
| 13 | QI | Qwen-Image-2512 | 6.3% | 41.0% |
| 14 | FD | FLUX.2-dev | 4.9% | 42.0% |
| 15 | ZI | Z-Image-Turbo | 3.4% | 32.4% |
| 16 | QI | Qwen-Image | 2.8% | 23.8% |
| 17 | FP | Flux.2-Pro | 1.6% | 21.1% |
| 18 | GI | GLM-Image | 1.4% | 15.3% |
| 19 | I4 | Imagen-4 | 1.1% | 10.7% |
| 20 | L | LongCat | 0.7% | 12.0% |
| 21 | XO | X-Omni-EN | 0.5% | 9.4% |
| 22 | SL | SD35-Large | 0.5% | 2.1% |
| 23 | B | Bagel | 0.3% | 3.7% |
| 24 | FK | FLUX.1-Krea-dev | 0.1% | 5.1% |
| 25 | FD | Flux.1-dev | 0.1% | 5.0% |
| 26 | FS | FLUX.1-schnell | 0.0% | 5.1% |
方法论
- 构建与评估流程:该基准测试将现实世界的参考和领域知识转化为结构化提示,并使用严格的检查清单来评估生成的图像。
- 评估任务:涵盖5种文档类型和4个关键能力维度,形成20个不同的评估任务。
引用信息
- 论文标题:BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation
- 年份:2026
- arXiv ID:2603.25732
- arXiv 链接:https://arxiv.org/abs/2603.25732
- BibTeX:
@misc{li2026bizgeneval, title={BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation}, author={Yan Li and Zezi Zeng and Ziwei Zhou and Xin Gao and Muzhao Tian and Yifan Yang and Mingxi Cheng and Qi Dai and Yuqing Yang and Lili Qiu and Zhendong Wang and Zhengyuan Yang and Xue Yang and Lijuan Wang and Ji Li and Chong Luo}, year={2026}, eprint={2603.25732}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.25732}, }
相关资源链接
- 论文:https://aka.ms/BizGenEval
- 代码:https://aka.ms/BizGenEval
- 数据集:https://aka.ms/BizGenEval
- BibTeX:https://aka.ms/BizGenEval
搜集汇总
数据集介绍

构建方式
在商业视觉内容生成领域,BizGenEval数据集的构建遵循系统化与多维度原则。其构建过程始于从专业来源手动收集1819张真实商业视觉设计图像,涵盖幻灯片、图表、网页、海报和科学图表五大领域,并经过多轮人工筛选以确保样本的代表性与隐私合规性。随后,基于这些视觉参考,研究团队通过结构化分析流程生成详细的内容生成提示,模拟现实设计需求。对于知识推理维度,则从物理、化学等五个主题中精选100个知识参考点,并扩展为生成提示,同时隐藏关键事实以评估模型的内在知识整合能力。最终,每个提示均配以20个人工验证的检查清单问题,形成包含400个提示和8000个验证问题的系统化评估框架。
特点
BizGenEval数据集的核心特点在于其多维度的评估体系与真实商业场景的紧密结合。该数据集通过五大商业文档领域与四大能力维度的交叉,构建了20个评估任务,全面覆盖了文本渲染、布局控制、属性绑定和知识推理等关键能力。其提示设计基于真实商业材料,强调密集文本、复杂布局和严格语义正确性,从而模拟了专业设计工作流中的多约束生成场景。此外,数据集引入了基于检查清单的评估协议,结合多模态大语言模型作为自动评估工具,确保了评估的可扩展性与一致性。数据集的统计特征显示,内容型提示长度在200至1400词之间,而知识型提示则较为简洁,反映了不同任务对视觉细节与语义深度的差异化需求。
使用方法
使用BizGenEval数据集进行评估时,研究者需遵循其结构化的评估流程。首先,将生成模型应用于数据集提供的400个精心设计的提示,产生相应的视觉输出。随后,利用数据集配套的检查清单问题,通过多模态大语言模型自动评估生成图像是否满足复杂的视觉与语义约束。每个提示对应的20个验证问题被分为简单与困难两个子集,采用基于错误的罚分策略计算得分,从而清晰区分不同模型的性能层次。该评估方法支持对26种主流图像生成系统的大规模基准测试,包括闭源API与开源模型,揭示了当前生成模型在商业视觉内容创建中的能力差距。通过这种标准化评估,BizGenEval为未来面向实际应用的视觉生成研究提供了可靠的性能衡量标准。
背景与挑战
背景概述
随着图像生成模型的快速发展,其应用已从美学图像创作扩展到商业视觉内容生成领域。然而,现有基准主要聚焦于自然图像合成,难以系统评估模型在真实商业设计任务中面临的结构化与多约束需求。为此,微软联合上海交通大学、西安交通大学和复旦大学的研究团队于2026年推出了BizGenEval基准,旨在填补商业视觉内容生成系统化评估的空白。该基准涵盖幻灯片、图表、网页、海报和科学图表五大典型文档类型,并围绕文本渲染、布局控制、属性绑定和知识推理四个核心能力维度构建了20项评估任务。通过精心设计的400个提示和8000个人工验证问题,BizGenEval为评估生成图像在复杂视觉与语义约束下的合规性提供了标准化框架,对推动生成模型在专业设计场景的应用具有重要影响。
当前挑战
BizGenEval所针对的领域挑战在于商业视觉内容生成需要同时满足密集文本渲染、复杂布局控制、精确属性绑定和领域知识推理等多重约束,而现有模型在结构化文档生成中仍存在显著能力缺口。构建过程中的挑战主要体现在数据收集与任务设计层面:需要从真实商业材料中手动筛选1819个候选样本,并确保其覆盖五大领域与四维能力的代表性组合;同时,为知识推理任务构建涵盖物理、化学、数学、历史与艺术五大主题的100个知识点,要求生成提示既能隐藏关键信息以评估真实推理能力,又能保持与商业文档格式的深度融合。此外,评估协议需设计包含8000个验证问题的结构化检查表,并建立基于多模态大语言模型的自动化评估流程,确保评估结果与人工判断的高度一致性。
常用场景
经典使用场景
在商业视觉内容生成领域,BizGenEval数据集为评估图像生成模型在结构化文档创建中的能力提供了标准化测试平台。该数据集通过涵盖幻灯片、图表、网页、海报和科学图表五种典型商业文档类型,并结合文本渲染、布局控制、属性绑定和知识推理四个关键能力维度,构建了二十项精细化评估任务。研究者通常利用其精心设计的四百条提示语和八千个人工验证的检查清单问题,系统性地检验生成模型在复杂视觉与语义约束下的表现,从而精准衡量模型在专业设计场景中的实际生成质量。
实际应用
在实际应用层面,BizGenEval为商业设计工具的开发与优化提供了关键评估标准。企业可利用该基准测试其视觉生成系统在制作商业演示文稿、数据可视化图表、营销海报和网页界面等场景中的可靠性。例如,在自动化报告生成、智能广告设计、教育材料制作等领域,该数据集帮助开发者识别模型在文本精确渲染、布局合规性、品牌元素绑定等方面的不足,从而推动生成技术向更高精度、更强可控性的方向发展,提升人工智能辅助设计的工作效率与产出质量。
衍生相关工作
BizGenEval的发布促进了商业视觉生成评估体系的完善,并衍生出一系列相关研究。其多维度评估框架启发了如SlidesGen-Bench、IGenBench等针对特定文档类型的专项基准,同时推动了布局控制、属性绑定等核心能力的评测方法创新。在模型改进方面,该数据集揭示的性能差距激励研究者开发更强大的多模态推理架构与精细化控制机制。此外,其采用的检查清单评估协议与自动化多模态大语言模型评判方法,也为后续视觉生成评估工作提供了可借鉴的技术范式。
以上内容由遇见数据集搜集并总结生成



