BizGenEval

github2026-04-02 更新2026-03-29 收录

下载链接：

https://github.com/microsoft/BizGenEval

下载链接

链接失效反馈

官方服务：

资源简介：

BizGenEval是一个系统性的基准测试，用于评估图像生成模型在现实世界商业设计任务中的表现。它针对结构化场景，具有密集文本、精确布局、多个视觉元素和严格的语义约束。它涵盖了5种文档类型（幻灯片、图表、网页、海报、科学图表）×4种能力维度（文本渲染、布局控制、属性绑定、知识推理），共20个评估任务。基准测试包括300个精选提示和100个复杂知识密集型提示，以及8000个人工验证的二进制检查问题。

BizGenEval is a systematic benchmark designed to evaluate the performance of image generation models on real-world commercial design tasks. It targets structured scenarios characterized by dense text, precise layouts, multiple visual elements, and strict semantic constraints. It encompasses 20 evaluation tasks across 5 document types (slides, charts, web pages, posters, scientific diagrams) × 4 capability dimensions: text rendering, layout control, attribute binding, and knowledge reasoning. The benchmark includes 300 curated prompts, 100 complex knowledge-intensive prompts, and 8000 manually verified binary check questions.

创建时间：

2026-03-16

原始信息汇总

BizGenEval 数据集概述

数据集简介

BizGenEval 是一个用于评估图像生成模型在真实世界商业设计任务上性能的基准测试。它系统地涵盖了 5 种文档类型 与 4 种能力维度 的组合，共计 20 个评估任务。数据集包含 400 个精心设计的提示词和 8,000 个检查清单问题。

核心构成

文档类型：幻灯片、图表、网页、海报、科学图表。
能力维度：文本渲染、布局控制、属性绑定、知识推理。
任务数量：5 种文档类型 × 4 种能力维度 = 20 个评估任务。
数据规模：400 个提示词，8,000 个检查清单问题。

数据集格式

数据集主文件为 assets/bizgeneval.jsonl，每个条目遵循以下 JSON 模式： json { "id": 0, "prompt": "Generate a slide with ...", "domain": "slides|webpage|chart|poster|scientific_figure", "dimension": "layout|attribute|text|knowledge", "aspect_ratio": "16:9", "reference_image_wh": "2400x1800", "questions": ["question_1", "question_2", "..."], "eval_tag": "key_in_EVAL_GENERATION_PROMPTS", "easy_qidxs": [1, 2, 3], "hard_qidxs": [4, 5, 6] }

easy_qidxs / hard_qidxs：用于区分问题的难度。

使用流程

图像生成：通过 generation/image_generation 模块，使用配置文件 config/generation_config.yaml，可从数据集中读取提示词并生成图像。
模型集成：用户可通过扩展 generation/models.py 文件中的 load_model() 和 generate_image() 方法来集成自定义的生成模型。
自动评估：通过 evaluation/image_evaluation 模块，使用 Gemini API 对生成的图像进行评估。
结果汇总：评估后，使用 evaluation.summarize 模块生成汇总表格，包括按文档类型、按能力维度分组的得分，以及完整的统计摘要。

相关资源

论文地址：https://arxiv.org/abs/2603.25732
项目主页：https://aka.ms/BizGenEval
Hugging Face 数据集地址：https://huggingface.co/datasets/microsoft/BizGenEval
引用信息：请参考 README 文件中的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在商业视觉内容生成领域，BizGenEval数据集通过精心设计的结构化框架构建而成。该数据集涵盖了幻灯片、图表、网页、海报和科学图表等五种文档类型，并结合文本渲染、布局控制、属性绑定和知识推理四个能力维度，形成了二十项评估任务。研究人员从实际商业设计场景中提炼出四百条精心策划的提示词，并基于这些提示生成了八千个检查清单问题，从而构建了一个系统且全面的评估基准。

特点

BizGenEval数据集展现出多维度、细粒度的评估特性，其核心在于将商业设计任务分解为可量化的能力维度。每个数据条目不仅包含生成提示和领域信息，还标注了难度分级，区分简单与复杂问题，以适应不同层次的模型评估需求。数据集采用动态分辨率适配机制，支持根据原始参考图像尺寸或像素预算灵活调整输出，确保了评估过程与实际应用场景的高度贴合。

使用方法

使用BizGenEval数据集时，研究人员需首先配置生成环境，通过修改配置文件指定模型参数，并运行图像生成脚本以产生评估所需的视觉内容。随后，借助Gemini API进行自动化评估，系统支持按领域或维度筛选任务，并可选择强制重新运行或调试模式。评估完成后，通过汇总脚本生成按领域、维度分组的详细统计表格，便于全面分析模型在不同商业设计任务上的性能表现。

背景与挑战

背景概述

随着生成式人工智能在视觉内容创作领域的迅猛发展，商业设计任务对模型能力的评估提出了更高要求。BizGenEval基准由微软研究院于2026年发布，旨在系统评估图像生成模型在真实商业场景下的综合性能。该数据集覆盖幻灯片、图表、网页、海报和科学图表五种文档类型，并从文本渲染、布局控制、属性绑定和知识推理四个能力维度构建了二十项评估任务。其核心研究问题聚焦于如何量化生成模型在复杂、结构化商业内容创作中的实用性与可靠性，为推进面向专业领域的视觉内容生成技术提供了关键的评价标准与研究方向。

当前挑战

BizGenEval所应对的领域挑战在于，现有图像生成评估多集中于自然场景的逼真度或简单文本符合度，缺乏对商业设计中多模态、结构化与知识密集型内容的系统测评。构建过程中的挑战则体现在如何精准定义并拆解商业设计的复杂需求为可量化的评估维度，以及如何构建涵盖广泛领域知识、具有高一致性与可操作性的细粒度检查清单，从而确保评估结果既能反映模型的实际应用潜力，又能揭示其在不同任务维度上的具体能力边界。

常用场景

经典使用场景

在商业视觉内容生成领域，BizGenEval数据集为评估图像生成模型在真实设计任务中的表现提供了系统化基准。该数据集覆盖幻灯片、图表、网页、海报和科学图表五种文档类型，并结合文本渲染、布局控制、属性绑定和知识推理四个能力维度，构成二十项评估任务。研究人员通常利用其四百条精心设计的提示和八千个检查问题，对生成模型在商业场景下的综合能力进行量化分析，从而推动模型在复杂视觉内容生成方面的优化与创新。

解决学术问题

BizGenEval数据集有效解决了商业视觉内容生成研究中缺乏标准化评估框架的学术难题。传统评估方法往往局限于单一图像质量或文本对齐度，而该数据集通过多维度、多任务的结构，系统性地衡量模型在真实商业设计需求下的表现。它不仅促进了生成模型在布局合理性、属性一致性等细粒度能力上的研究，还为跨文档类型的泛化性能评估提供了可靠依据，从而推动了视觉内容生成技术向实用化、专业化方向发展。

衍生相关工作

围绕BizGenEval数据集，学术界已衍生出一系列专注于商业视觉生成评估的经典研究工作。这些工作通常基于其多维任务框架，进一步探索生成模型在特定文档类型如科学图表或商业海报中的性能边界，或开发更精细的评估指标以补充原有检查表体系。部分研究还利用该数据集的难度划分机制，深入分析模型在简单与复杂提示下的表现差异，从而为模型优化提供针对性指导，推动了商业内容生成评估方法的持续演进与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集