Vision2Web

github2026-04-14 更新2026-04-04 收录

下载链接：

https://github.com/zai-org/Vision2Web

下载链接

链接失效反馈

官方服务：

资源简介：

Vision2Web是一个全面的基准测试，旨在评估多模态编码代理在视觉网站开发任务中的表现，涵盖整个软件开发生命周期。它包括三个渐进层次：静态网页、交互式前端和全栈网站，每个层次都有相应的评估指标。数据集包含193个任务，涵盖16个子类别和4个主要领域，支持918个原型图像和1,255个功能测试用例。

Vision2Web is a comprehensive benchmark designed to evaluate the performance of multimodal coding agents on visual web development tasks, covering the entire software development lifecycle. It includes three progressive levels: static web pages, interactive frontends, and full-stack websites, with 193 total tasks spanning 16 subcategories and 4 major domains (e-commerce, SaaS, content, and public services), and provides 918 prototype images and 1,256 functional test cases.

创建时间：

2026-03-29

原始信息汇总

Vision2Web 数据集概述

数据集基本信息

数据集名称：Vision2Web
核心任务：评估多模态编码智能体在端到端视觉网站开发任务上的能力。
主要特点：一个分层的基准测试，涵盖从静态网页到全栈网站的完整软件开发生命周期。

数据集结构与内容

任务总数：193个任务。
层级划分：
1. Level 1 – 静态网页：根据多设备UI原型（桌面/平板/移动端）生成响应式、可执行的网页。
2. Level 2 – 交互式前端：根据多个原型和文本规范，开发具有连贯导航流程的多页面交互式前端。
3. Level 3 – 全栈网站：根据结构化需求文档和视觉原型，构建处理状态管理和后端逻辑的完整全栈系统。
领域覆盖：涵盖电子商务、SaaS、内容、公共服务4个主要领域，共16个子类别。
数据规模：包含918张原型图像和1,256个功能测试用例。

评估方法

评估指标：
- 视觉评分（VS）：用于所有层级。
- 功能评分（FS）：用于Level 2和Level 3。
评估范式：基于工作流的智能体验证，结合GUI智能体验证器进行功能正确性评估，以及基于视觉语言模型的评判器进行视觉保真度评估。

数据集获取与使用

许可证：CC-BY-NC-SA-4.0，仅用于学术研究，禁止任何形式的商业用途。
下载地址：https://huggingface.co/datasets/zai-org/Vision2Web
数据集结构：

datasets/ ├── webpage/ # Level 1: 静态网页 (100个任务) ├── frontend/ # Level 2: 交互式前端 (66个任务) └── website/ # Level 3: 全栈网站 (27个任务)
任务目录内容：
- prototypes/：UI原型图像。
- resources/：多媒体资源（图像、图标、视频、字体）。
- workflow.json：测试工作流规范。
- prompt.txt：文本需求（仅Level 2）。
- prd.md：需求文档（仅Level 3）。

相关资源

项目主页：https://vision2web-bench.github.io/
论文地址：https://arxiv.org/abs/2603.26648
排行榜提交：https://huggingface.co/datasets/zai-org/Vision2Web-Leaderboard

搜集汇总

数据集介绍

构建方式

在视觉网站开发领域，构建高质量的数据集对于评估多模态编码智能体的能力至关重要。Vision2Web数据集通过分层结构精心构建，涵盖了从静态网页到全栈网站的完整开发生命周期。其构建过程基于193个具体任务，这些任务分布于电子商务、软件即服务、内容管理和公共服务四大领域，并辅以918张原型图像和1256个功能测试用例。每个任务均包含多设备UI原型、多媒体资源及结构化需求文档，通过工作流规范确保任务的一致性与可评估性，从而为智能体提供了从视觉理解到功能实现的渐进式挑战。

特点

Vision2Web数据集的核心特点在于其层次化评估框架与多模态验证机制。该数据集划分为三个渐进层级：静态网页生成、交互式前端开发以及全栈网站构建，每一层级均对应不同的复杂度与评估指标。其创新之处在于引入了基于工作流的智能体验证范式，结合GUI代理验证器进行功能正确性测试，并利用视觉语言模型作为视觉保真度评判工具，实现了可扩展且与具体实现无关的评估。这种设计不仅覆盖了视觉还原、需求推理与交互逻辑等关键维度，还通过丰富的测试用例确保了评估的全面性与客观性。

使用方法

使用Vision2Web数据集进行智能体评估需遵循系统化的操作流程。首先，通过克隆代码库并安装依赖环境完成数据集的本地部署，随后构建Docker沙箱以提供隔离的执行环境。推荐配置LiteLLM代理以确保模型调用的兼容性。推理阶段需指定智能体框架与模型标识符，运行脚本生成项目实现；评估阶段则调用自动化测试流程，由GUI代理执行功能测试，视觉语言模型进行原型比对，最终生成包含视觉分数与功能分数的详细结果。用户可通过分析脚本汇总性能数据，并依据指南提交推理输出至官方排行榜，以参与广泛的性能比较。

背景与挑战

背景概述

随着多模态人工智能与自动化软件工程领域的深度融合，视觉驱动的网站开发任务逐渐成为研究前沿。Vision2Web基准数据集由Zehai He、Wenyi Hong等研究人员于2026年3月构建并发布，旨在系统评估多模态编码智能体在端到端网站开发全生命周期中的综合能力。该数据集聚焦于从视觉原型到可执行代码的转换过程，核心研究问题在于如何让智能体有效整合界面理解、需求推理、交互逻辑与全栈实现，以应对长视野、多层次的复杂开发场景。其层级化的任务设计覆盖静态网页、交互式前端及全栈网站，为衡量智能体在真实软件开发流程中的表现提供了标准化、可扩展的评估框架，对推动智能编程助手与自动化开发工具的发展具有重要影响力。

当前挑战

Vision2Web致力于解决视觉网站自动生成这一领域问题的核心挑战，即如何确保智能体能够准确理解多设备视觉原型、解析复杂文本需求，并生成功能完备、视觉保真且具备交互逻辑的网站代码。构建过程中的挑战主要体现在数据集的层次化设计与可扩展评估机制的建立。具体而言，需要精心设计涵盖电子商务、SaaS、内容与公共服务四大领域的193项任务，并配套提供918张原型图像与1256个功能测试用例，以覆盖多样化的开发场景。同时，引入基于工作流的智能体验证范式，结合GUI代理验证器与视觉语言模型评判官，实现跨复杂度层级的、与具体实现无关的规模化评估，这对测试流程的自动化与评估指标的客观性提出了极高要求。

常用场景

经典使用场景

在视觉网站开发领域，Vision2Web数据集为评估多模态编码智能体提供了一个层次化的基准框架。该数据集通过三个渐进式任务层级，模拟了从静态网页生成到全栈系统构建的完整开发生命周期。经典使用场景涉及智能体根据多设备UI原型图像和文本需求，自动生成响应式、可交互且功能完备的网站代码，并通过自动化验证流程评估其视觉保真度与功能正确性。

解决学术问题

Vision2Web旨在解决多模态智能体在长周期、复杂任务中能力评估的学术挑战。传统基准往往局限于单一模态或简短任务，而该数据集通过整合UI理解、需求推理与全栈实现，为研究社区提供了衡量智能体在真实软件开发场景中综合性能的标准化工具。其层次化结构有助于剖析智能体在不同复杂度下的能力边界，推动了端到端视觉网站生成领域的算法创新与理论进展。

衍生相关工作

围绕Vision2Web数据集，已衍生出一系列聚焦于视觉网站生成的经典研究工作。这些工作通常探索如何结合视觉语言模型与代码生成模型，以提升多模态需求的理解与执行精度。部分研究进一步优化了数据集的评估机制，引入了更高效的GUI代理验证器或视觉相似度度量方法。这些衍生成果共同推动了智能体在软件工程自动化领域的应用深度，为后续的基准构建与算法设计提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集