MM-WebGen-Bench

Name: MM-WebGen-Bench
Creator: Microsoft
Published: 2026-04-17 22:41:25
License: 暂无描述

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/microsoft/MM-WebGen-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MM-WebGen-Bench 是一个用于多模态网页生成的评估基准，包含 120 个精心设计的网页设计提示，涵盖 11 个场景类别、11 种视觉风格以及多样化的多模态组合（4 种视频类型、8 种图像类型和 17 种图表类型）。数据集包含三个字段：'instruction'（生成模型的任务指令）、'input'（描述布局、风格和内容的详细网页设计提示）和 'file_id'（唯一案例标识符）。该数据集适用于多模态网页生成任务，并提供了多层次的评估流程（全局、图像、视频、图表）。数据集采用 MIT 许可证发布。

MM-WebGen-Bench is an evaluation benchmark for multimodal web generation. It contains 120 carefully designed web design prompts covering 11 scenario categories, 11 visual styles, and diverse multimodal combinations (4 video types, 8 image types, and 17 chart types). The dataset includes three fields: 'instruction' (task instructions for the generative model), 'input' (detailed web design prompts specifying layout, style and content), and 'file_id' (unique case identifier). This benchmark is applicable to multimodal web generation tasks and provides a multi-level evaluation pipeline (global, image, video, chart). It is released under the MIT License.

提供机构：

Microsoft

创建时间：

2026-04-16

原始信息汇总

MM-WebGen-Bench 数据集概述

基本信息

数据集名称：MM-WebGen-Bench
创建者/发布者：microsoft
语言：英语 (en)
许可证：MIT License
任务类别：文本生成 (text-generation)
标签：benchmark, webpage-generation, multimodal, agent
数据集规模：小于1K样本 (n<1K)
数据分割：测试集 (test)，包含120个样本

数据集描述

MM-WebGen-Bench是一个用于多模态网页生成的多层次评估基准。该数据集包含120个精心策划的网页设计提示，覆盖11个场景类别、11种视觉风格以及多样化的多模态组合（4种视频类型、8种图像类型和17种图表类型）。该基准在MM-WebAgent项目中提出。

数据模式

数据集包含以下字段：

字段名	数据类型	描述
`instruction`	string	提供给生成模型的任务指令
`input`	string	描述布局、风格和内容的详细网页设计提示
`file_id`	string	唯一案例标识符

使用方式

可以通过Hugging Face datasets库加载数据集： python from datasets import load_dataset ds = load_dataset("microsoft/MM-WebGen-Bench", split="test")

评估方法

MM-WebAgent提供了一个多层次（全局、图像、视频、图表）的评估流程。具体细节请参考GitHub仓库。

引用信息

如果使用本数据集，请引用以下论文： bibtex @article{li2026mmwebagent, title={MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation}, author={Yan Li and Zezi Zeng and Yifan Yang and Yuqing Yang and Ning Liao and Weiwei Guo and Lili Qiu and Mingxi Cheng and Qi Dai and Zhendong Wang and Zhengyuan Yang and Xue Yang and Ji Li and Lijuan Wang and Chong Luo}, journal={arXiv preprint arXiv:2604.15309}, year={2026} }

许可证

本数据集采用MIT许可证。

搜集汇总

数据集介绍

构建方式

在网页生成领域，MM-WebGen-Bench的构建体现了对多模态内容整合的严谨考量。该数据集通过精心设计的流程，从广泛的网页设计场景中筛选出120个代表性提示，覆盖了11种场景类别和视觉风格，并融入了视频、图像及图表等多种媒体类型。每个数据样本均包含明确的生成指令和详细的设计描述，确保了评估任务在多样性和复杂性上的平衡，为多模态网页生成研究提供了结构化的基准测试环境。

特点

MM-WebGen-Bench的突出特点在于其多层次、多维度的评估框架。数据集不仅涵盖了丰富的视觉样式和场景类别，还深度融合了视频、图像与图表等异质媒体元素，呈现出高度的多模态复合特性。这种设计使得评估能够从全局布局到具体媒体内容进行细致分析，为衡量生成模型在复杂网页构建任务中的综合能力提供了全面而精确的度量标准。

使用方法

使用MM-WebGen-Bench时，研究人员可通过Hugging Face的datasets库便捷加载测试集，每个样本均包含指令、输入描述及唯一标识符。该数据集主要用于评估多模态网页生成模型的性能，配合官方提供的多层次评估流程，用户可对生成结果在全局结构、图像、视频及图表等维度进行系统性分析，从而推动智能网页设计技术的迭代与优化。

背景与挑战

背景概述

随着多模态人工智能技术的飞速发展，网页生成任务逐渐从传统的文本驱动转向融合视觉、图表与视频元素的复杂创作过程。MM-WebGen-Bench由微软研究院于2026年提出，作为MM-WebAgent项目的核心评估基准，旨在系统性地衡量智能体在理解多样化设计指令后生成完整网页的能力。该数据集涵盖了11种场景类别与视觉风格，并整合了视频、图像及图表等多种媒体类型，为探索层次化多模态推理与内容合成提供了关键实验平台，推动了自动化网页设计领域向更智能、更富表现力的方向发展。

当前挑战

在网页生成领域，模型需精准协调布局、风格与多模态内容之间的复杂关联，同时确保视觉一致性与功能完整性，这对现有生成系统的结构化理解与跨模态对齐能力提出了严峻考验。构建MM-WebGen-Bench的过程中，研究团队面临如何系统化定义涵盖广泛场景与媒体组合的设计提示，以及如何建立可量化的多层次评估体系以客观衡量生成网页的全局协调性与局部媒体质量的双重挑战。

常用场景

经典使用场景

在网页生成领域，MM-WebGen-Bench作为多模态评估基准，其经典使用场景集中于系统性地评测生成模型在复杂视觉与文本融合任务上的表现。该数据集通过涵盖11种场景类别、11种视觉风格以及多样化的多媒体组合，为研究者提供了标准化的测试环境，用以衡量模型在遵循详细设计提示、整合图像、视频和图表等元素方面的能力，从而推动自动化网页生成技术的精准度与泛化性提升。

解决学术问题

该数据集有效解决了多模态生成任务中缺乏统一、细粒度评估标准的学术难题。传统网页生成研究常受限于评价指标的单一性，难以全面反映模型在布局、风格与内容协调上的综合性能。MM-WebGen-Bench通过引入多层次评估框架，包括全局、图像、视频和图表等维度的分析，为量化模型在复杂设计约束下的生成质量提供了可靠依据，促进了多模态智能体在结构化内容生成领域的理论进展与方法创新。

衍生相关工作

围绕MM-WebGen-Bench，已衍生出多项经典研究工作，其中最具代表性的是与其同源的MM-WebAgent框架。该框架利用数据集的层次化评估体系，构建了基于大语言模型与视觉理解模块的协同生成架构，进一步探索了多模态智能体在网页生成任务中的规划与执行机制。这些工作不仅深化了对多模态融合技术的理解，也为后续研究如动态网页适配、交互式设计生成等方向奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成