Vision2Web

Name: Vision2Web
Creator: 清华大学; 智谱AI
Published: 2026-04-01 23:06:02
License: 暂无描述

arXiv2026-04-01 更新2026-04-03 收录

下载链接：

https://vision2web-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

Vision2Web是由清华大学与智谱AI联合构建的多层次视觉网站开发基准数据集，涵盖从静态页面生成到全栈开发的193项任务，包含918张原型图像和1255个测试用例。数据集通过严格的三阶段流程（结构评估、内容筛选、人工审核）从真实网站中提取，确保功能丰富性和视觉一致性。其核心任务分为静态网页、交互式前端和全栈网站三个层级，旨在系统性评估多模态编码代理的跨模态推理、长程规划及系统构建能力，为端到端软件开发提供标准化测试平台。

提供机构：

清华大学; 智谱AI

创建时间：

2026-03-28

原始信息汇总

Vision2Web 数据集概述

数据集简介

Vision2Web 是一个用于评估多模态编码智能体能否根据视觉原型和结构化需求构建真实网站的基准测试。它超越了小型代码编辑和静态用户界面生成，旨在衡量现实环境中端到端的网站开发能力。

核心特点

任务构成：每个任务提供多模态输入，如用户界面原型图像、需求描述和开发资产。智能体需要生成满足功能行为和视觉保真度的可执行网站。
评估框架：引入了自动化验证框架，结合了工作流驱动的图形用户界面测试和基于视觉语言模型的视觉评判。

基准测试亮点

任务数量：193 个任务。
原型图像：918 张原型图像。
测试用例：1,255 个测试用例。
类别覆盖：涵盖 4 个主要领域的 16 个子类别，覆盖从静态响应式网页到交互密集型前端和需求驱动的全栈系统等难度递增的开发场景。

排行榜信息（S1-2026 赛季）

评估周期：2026年4月至6月。
视觉语言模型评判器：Gemini-3.1-pro-preview。
图形用户界面代理：GLM-4.6V。
最后更新：2026-03-29。
评估层级：
- 层级 1：静态网页：评估桌面端、平板端、移动端的视觉得分。
- 层级 2：交互式前端：评估视觉得分和功能得分。
- 层级 3：全栈应用：评估视觉得分和功能得分。

提交指南概要

运行推理：使用官方评估管道在 Vision2Web 基准任务上运行智能体以生成网站代码。
复刻仓库：在 Hugging Face 上复刻 Vision2Web 排行榜数据集仓库。
组织推理输出：按照要求的目录结构组织提交内容，并包含指定的 submission.json 文件。
发起拉取请求：向排行榜仓库发起包含推理输出的拉取请求。
评估与结果：团队将验证提交格式，使用当前赛季的视觉语言模型评判器和图形用户界面代理运行官方评估管道，并在排行榜上发布结果。

引用信息

论文标题：Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification
作者：Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang
年份：2026
arXiv ID：2603.26648
arXiv 链接：https://arxiv.org/abs/2603.26648
许可证：CC BY-SA 4.0

搜集汇总

数据集介绍

构建方式

在视觉网站开发领域，构建高质量评估基准面临数据真实性与任务复杂性的双重挑战。Vision2Web数据集通过严谨的多阶段流程从真实网站中构建，首先从C4验证集中筛选初始网页集合，随后基于DOM结构分析和视觉语言模型评分进行内容筛选，保留功能丰富且布局清晰的页面。最终由专业标注者进行人工审查，确保任务在设备响应性、交互逻辑和实现难度等方面符合现实开发场景，最终形成涵盖193个任务、1255个测试用例的层次化基准。

使用方法

使用该数据集时，研究者需遵循其层次化评估框架。对于静态网页任务，智能体需根据跨设备原型图像生成响应式代码；交互式前端任务要求整合多页面原型与文本描述，构建具有连贯导航逻辑的前端系统；全栈网站任务则需基于结构化需求文档与原型图像，完成从数据库设计到前后端集成的完整开发流程。评估阶段需部署工作流验证系统，通过预定义的测试工作流执行功能验证，并调用VLM评判官进行组件级视觉比对，最终生成功能分数与视觉分数的量化评估报告。

背景与挑战

背景概述

随着大语言模型在代码生成领域取得显著进展，自主编码代理的推理与开发能力得到大幅提升，然而针对复杂、端到端网站开发的系统性评估体系仍存在明显不足。为填补这一空白，由清华大学与智谱AI联合研究团队于2026年提出的Vision2Web基准应运而生。该数据集聚焦于视觉网站开发这一核心研究问题，通过构建包含193个任务、918张原型图像和1255个测试用例的层次化评估框架，系统涵盖从静态界面到代码生成、交互式多页面前端复现到长周期全栈网站开发的全流程能力测评。其创新性的工作流驱动代理验证范式，结合GUI代理验证器与基于视觉语言模型的评判机制，为多模态编码代理的能力评估提供了可重现、可扩展的标准化测试平台，对推动智能软件开发与多模态人工智能交叉领域的研究具有重要影响力。

当前挑战

Vision2Web致力于解决的领域挑战在于系统评估多模态编码代理在端到端视觉网站开发中的综合能力，其核心难题包括如何准确衡量代理在长周期任务规划、跨页面状态协调以及复杂系统构建中的表现。在数据集构建过程中，研究团队面临多重挑战：首先，需从真实网站中提取高质量、无污染的任务数据，并通过多阶段过滤流程确保任务的多样性与复杂性；其次，设计可靠的自动化评估机制尤为困难，传统单元测试难以应对多样化的软件实现，而基于大模型的评估器又存在执行不稳定与可重现性差的问题；最后，构建能够同时评估功能正确性与视觉保真度的统一验证框架，需要创新性地融合结构化工作流与自主代理执行，以实现在灵活性与可控性之间的平衡。

常用场景

经典使用场景

在视觉网站开发领域，Vision2Web数据集作为层次化基准，其经典使用场景聚焦于评估多模态编码代理在端到端网站构建任务中的综合能力。数据集通过三个渐进式任务层级——静态网页生成、交互式前端开发与全栈网站构建，系统性地衡量代理从视觉原型理解到复杂系统集成的表现。研究者利用该数据集对各类视觉语言模型进行标准化测试，揭示其在跨模态推理、长时程任务规划及多页面协调方面的性能差距，为模型优化提供精准诊断依据。

解决学术问题

Vision2Web数据集有效解决了视觉网站开发研究中长期存在的若干学术问题。传统基准如SWE-Bench局限于增量式代码编辑评估，而Design2Code等仅关注静态单页面生成，缺乏对端到端开发流程的系统覆盖。该数据集通过层次化任务设计，首次实现了从视觉感知到全栈工程能力的解耦评估，并引入基于工作流的代理验证范式，结合GUI代理验证器与VLM评判机制，为复杂软件系统的功能正确性与视觉保真度提供了可复现、可量化的评估框架，填补了多模态编码代理在真实场景评估方面的空白。

实际应用

在实际应用层面，Vision2Web数据集为自动化网站开发工具的研发与优化提供了关键测试平台。其任务源于真实网站，涵盖内容、交易、SaaS平台与公共服务等四大类别，能够模拟电商系统、社区论坛、企业级应用等多种实际开发场景。开发团队可借助该数据集评估智能编码代理在响应式布局适配、多页面导航逻辑、用户状态管理等核心工程环节的可靠性，进而推动AI辅助开发工具在原型转代码、前端自动化生成及全栈部署等实际工作流程中的落地应用。

数据集最近研究