WebMMU

Name: WebMMU
Creator: ServiceNow, Mila, Université de Montréal, McGill University, École de Technologie Supérieure (ETS), Polytechnique Montréal
Published: 2025-08-23 03:41:02
License: 暂无描述

arXiv2025-08-23 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/collections/mair-lab/webmmu

下载链接

链接失效反馈

官方服务：

资源简介：

WebMMU是一个多语言多模态基准测试数据集，用于评估模型在三个核心网络任务上的能力：网站视觉问答、涉及HTML/CSS/JavaScript的代码编辑以及原型到代码的生成。该数据集使用专家注释的真实世界网络数据来统一这些任务，以评估模型在复杂多步推理、精确元素定位和功能用户界面理解及编码方面的能力。

WebMMU is a multilingual and multimodal benchmark dataset for evaluating model capabilities across three core web-related tasks: website visual question answering, code editing involving HTML/CSS/JavaScript, and prototype-to-code generation. This dataset leverages expert-annotated real-world web data to unify these tasks, aiming to assess models' proficiency in complex multi-step reasoning, precise element localization, and functional user interface understanding and coding.

提供机构：

ServiceNow, Mila, Université de Montréal, McGill University, École de Technologie Supérieure (ETS), Polytechnique Montréal

创建时间：

2025-08-23

搜集汇总

数据集介绍

构建方式

在构建WebMMU数据集时，研究团队从FineWeb数据集中精心筛选了涵盖20个高内容密度领域的真实网页URL，包括电子商务、预订服务和科技等多样化场景。通过应用领域特定的启发式方法，确保了数据在英语、西班牙语、德语和法语四种语言中的代表性。数据采集过程采用视口特定快照与完整HTML及资源文件相结合的方式，同时通过拼接多滚动深度截图来模拟完整浏览会话。标注流程由经过严格培训的专业人员执行，他们基于网页截图和代码资源生成开放性问题、UI线框图及代码编辑指令，并通过三层质量保障机制确保标注的一致性与精确性。

使用方法

使用WebMMU数据集时，研究者可通过标准化任务流程评估多模态大语言模型的综合能力。对于视觉问答任务，模型需基于网页截图回答涉及功能交互、多步推理和通用理解的问题，其中交互类问题要求输出精确的边界框坐标。在设计转代码任务中，模型需将手绘线框或数字原型转换为结构化的HTML/CSS代码，重点考察其对UI层级和空间关系的把握能力。代码编辑任务则要求模型根据修改指令生成代码差异文件，在保持原有功能完整性的前提下实现视觉或功能调整。评估阶段采用LLM-as-Judge与自动指标相结合的方式，从语义准确性、布局保真度和功能一致性等维度进行综合量化。

背景与挑战

背景概述

WebMMU数据集由ServiceNow、Mila及多所高校联合团队于2025年发布，旨在构建多模态多语言网站理解与代码生成的统一评估基准。该数据集聚焦视觉网页解析、界面设计转代码及网页代码编辑三大核心任务，覆盖英语、西班牙语、德语和法语四种语言，涉及电商、预订、体育等20个现实领域。其创新性在于整合了传统分离的网页任务，通过专家标注的真实网页数据推动多模态大语言模型在复杂推理、元素定位及跨语言泛化能力的发展，为构建自动化网页开发智能体提供了关键基础设施。

当前挑战

WebMMU面临的领域挑战包括多模态大语言模型在网页视觉问答中难以实现精确的空间定位与多步逻辑推理，代码编辑任务中模型常生成语法正确但逻辑矛盾的修改，界面设计转代码时对嵌套元素层级结构的理解存在显著偏差。构建过程中需克服多语言网页数据采集的复杂性，确保专家标注在跨语言场景下的一致性，同时需平衡动态网页内容与静态快照的表示矛盾，并解决真实网站布局多样性带来的标注标准化难题。

常用场景

经典使用场景

在网页智能理解与代码生成研究领域，WebMMU数据集通过整合网站视觉问答、代码编辑与原型转代码三大核心任务，构建了多模态多语言评估基准。该数据集常被用于测试多模态大语言模型在复杂网页环境中的综合能力，例如模型需同时解析视觉布局中的交互元素、处理多语言文本内容，并生成符合功能需求的代码结构。其典型应用场景包括评估模型对嵌套UI层级的理解精度、跨语言语义的泛化能力，以及在真实网站数据上的多步骤推理表现，为网页自动化代理的开发提供了标准化测试平台。

解决学术问题

WebMMU有效解决了传统网页理解基准中任务割裂与语言单一的问题。它通过统一评估框架，系统检验模型在视觉 grounding、多步逻辑推理和代码结构维护等方面的能力，填补了现有研究在跨语言网页交互与功能代码生成领域的空白。该数据集揭示了当前多模态大语言模型在空间定位、布局层次解析和多语言泛化中的关键缺陷，推动了界面感知建模、多模态对齐技术等方向的发展，为构建具备实际网页操作能力的智能体奠定了理论基础。

实际应用

该数据集在网页开发自动化、多语言界面适配等工业场景中具有显著价值。例如，企业可利用其评估模型将设计稿转换为可运行代码的准确性，实现快速原型开发；多语言电商平台可借助其测试界面元素的跨文化适配能力，确保交互功能在不同语言环境中的一致性。此外，教育领域可通过该数据集构建编程辅助工具，帮助学习者理解网页结构与代码的映射关系，提升前端开发的教学效率与实操质量。

数据集最近研究