MM-webagent

Name: MM-webagent
Creator: Microsoft
Published: 2026-04-16 22:08:43
License: 暂无描述

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/microsoft/MM-webagent

下载链接

链接失效反馈

官方服务：

资源简介：

MM-WebGen-Bench 是一个用于多模态网页生成的多层次评估基准，源自 MM-WebAgent 项目。该数据集包含 120 个精心设计的网页生成提示，涵盖 11 种场景类别、11 种视觉风格以及多样化的多模态组合（包括 4 种视频类型、8 种图像类型和 17 种图表类型）。数据集结构包含三个字段：instruction（任务指令）、input（详细的网页设计提示，描述布局、风格和内容）和 file_id（唯一案例标识符）。数据集规模为 120 个测试样本，适用于文本生成和多模态任务，特别适合用于评估网页生成模型的性能。数据集采用 MIT 许可证发布。

提供机构：

Microsoft

创建时间：

2026-04-16

原始信息汇总

MM-WebGen-Bench 数据集概述

数据集基本信息

数据集名称：MM-WebGen-Bench
发布者：microsoft
语言：英语 (en)
许可证：MIT License
任务类别：文本生成 (text-generation)
标签：基准测试 (benchmark)、网页生成 (webpage-generation)、多模态 (multimodal)、智能体 (agent)
规模类别：小于1K样本 (n<1K)
配置名称：default

数据集内容与结构

数据文件：
- 分割：测试集 (test)
- 路径：data/test*
特征字段：
- instruction (string)：生成模型的任务指令。
- input (string)：描述布局、风格和内容的详细网页设计提示。
- file_id (string)：唯一案例标识符。
数据量：测试集包含 120 个样本。

数据集描述

MM-WebGen-Bench 是一个用于多模态网页生成的多层次评估基准。该数据集包含 120 个精心策划的网页设计提示，涵盖 11 个场景类别、11 种视觉风格以及多样化的多模态组合（4种视频类型、8种图像类型、17种图表类型）。

使用方法

python from datasets import load_dataset ds = load_dataset("microsoft/MM-WebAgent", split="test") print(ds[0])

评估方法

MM-WebAgent 提供了一个多层次（全局、图像、视频、图表）的评估流程。详细信息请参阅其 GitHub 仓库：https://github.com/microsoft/MM-WebAgent

许可证

本数据集采用 MIT 许可证发布：https://opensource.org/licenses/MIT

搜集汇总

数据集介绍

构建方式

在网页生成领域，MM-WebGen-Bench的构建遵循了严谨的基准测试设计原则。该数据集通过精心策划，汇集了涵盖11种场景类别和11种视觉风格的120个网页设计提示。这些提示不仅包含了多样化的多模态组合，如视频、图像和图表类型，还确保了每个案例都具有独特的标识符，从而为评估模型在多模态网页生成任务上的表现提供了结构化的测试基础。

特点

作为多模态网页生成的评估基准，MM-WebGen-Bench展现出鲜明的特色。其提示内容覆盖了广泛的视觉风格与场景类别，并整合了丰富的多媒体元素，包括多种视频、图像和图表类型。这种多层次的设计使得数据集能够全面检验生成模型在布局、风格和内容协调方面的能力，为研究提供了细致且多维度的评估视角。

使用方法

研究人员可通过Hugging Face的datasets库便捷加载MM-WebGen-Bench数据集。使用load_dataset函数并指定相应配置，即可访问测试分割中的120个样本。每个样本包含任务指令、详细的网页设计描述以及唯一标识符，便于直接用于模型推理或评估流程，进而依托其配套的多级评估管道对生成结果进行系统分析。

背景与挑战

背景概述

随着人工智能在内容生成领域的深入发展，多模态网页生成技术逐渐成为研究热点。MM-WebGen-Bench（亦称MM-webagent）由微软研究团队于近年推出，旨在构建一个系统性的评估基准，以推动多模态智能体在网页设计与生成方面的能力。该数据集聚焦于如何将自然语言指令与视觉元素（如图像、视频、图表）有机结合，生成符合特定场景、风格与布局要求的网页内容，其核心研究问题在于探索多模态模型在复杂、结构化输出任务中的泛化与创造性能。作为该领域的先驱性工作，它为后续研究提供了标准化的测试平台，显著促进了多模态生成模型在实用化场景中的评估与比较。

当前挑战

MM-WebGen-Bench所针对的领域问题——多模态网页生成——面临多重挑战：其一，模型需同时理解并协调文本指令与多样化的视觉媒体（涵盖11种场景类别、11种视觉风格及多种图像、视频、图表类型），确保生成内容的语义一致性与视觉和谐性；其二，评估生成网页的质量涉及全局布局、局部元素适配及多模态融合效果，需设计多层次、自动化的评估体系以替代主观人工评判。在数据集构建过程中，挑战主要体现在精心设计涵盖广泛场景与风格的120个高质量提示，确保其多样性与代表性，同时建立可靠的文件标识与结构化数据模式，以支持可重复的基准测试。

常用场景

经典使用场景

在网页设计与生成领域，MM-WebGen-Bench作为多模态网页生成的评估基准，其经典使用场景聚焦于对生成模型进行系统性评测。该数据集通过涵盖11种场景类别、11种视觉风格以及多样化的多媒体组合，为研究者提供了结构化的测试环境，用以评估模型在理解复杂指令、整合视觉元素与文本内容方面的能力。这一场景不仅推动了多模态生成技术的发展，还为自动化网页设计工具的性能验证奠定了坚实基础。

解决学术问题

该数据集有效解决了多模态生成研究中长期存在的评估标准化难题。传统方法往往缺乏对网页布局、视觉风格与多媒体内容协同生成能力的综合考量，而MM-WebGen-Bench通过引入多层次评估框架，为学术研究提供了可量化的性能指标。其意义在于促进了生成模型在复杂场景下的鲁棒性研究，并推动了跨模态理解与生成技术的理论进展，对人工智能在创意设计领域的应用产生了深远影响。

衍生相关工作

围绕该数据集，学术界衍生出了一系列经典研究工作。例如，微软团队提出的MM-WebAgent框架便以此为基础，构建了端到端的多模态网页生成与评估系统。后续研究进一步扩展了其在动态内容生成、交互式设计优化等方向的应用，并催生了多个专注于视觉-语言协同建模的改进模型。这些工作共同推动了多模态人工智能在数字内容创作领域的范式演进与技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集