WebGen-Bench

github2025-05-08 更新2025-05-10 收录

下载链接：

https://github.com/mnluzimu/WebGen-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

WebGen-Bench是一个用于评估LLMs在从零开始生成交互式和功能性网站的数据集。

WebGen-Bench is a dataset for evaluating LLMs' ability to generate interactive and functional websites from scratch.

创建时间：

2025-04-30

原始信息汇总

WebGen-Bench 数据集概述

数据集基本信息

名称: WebGen-Bench
用途: 评估大型语言模型（LLMs）在从零开始生成交互式和功能性网站的能力
相关论文: WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

数据集获取方式

Hugging Face: luzimu/WebGen-Bench
Kaggle: WebGen-Bench
本地存储: 数据已存放在data目录下

模型权重

WebGen-LM-7B: luzimu/WebGen-LM-7B
WebGen-LM-14B: luzimu/WebGen-LM-14B
WebGen-LM-32B: luzimu/WebGen-LM-32B

实验输出

位置: outputs.zip
内容: 论文中测试的基于LLM的代理输出

测试方法

测试Bolt.diy

安装与启动:
- 安装Node.js和pm2
- 配置Bolt.diy服务
自动测试:
- 使用eval_bolt_diy.py进行测试
- 输出结果存储在downloads目录下
UI代理评估:
- 使用WebVoyager UI代理进行测试
- 结果存储在extracted/results目录下
计算准确率:
- 使用compute_acc.py计算准确率
- 结果记录在table.md文件中
外观评分:
- 使用eval_appearance.py生成外观评分
- 使用compute_grade.py计算平均外观评分

测试OpenHands

使用仓库: OpenHands-WebGen-Fork
运行命令: python src/test_webgen-bench/test_webgen_bench.py

测试Aider

使用仓库: Aider-WebGen-Fork
运行命令: python ..srcatch_generate.py

训练WebGen-LM

数据去重与净化

工具: rule_deduplication.py, decontamination_ngram.py, test_decontamination_semantic.py
输出: 净化后的训练数据存储在data/train_processed目录下

生成训练数据

数据生成:
- 使用eval_bolt_diy.py生成训练数据
数据过滤:
- 使用eval_appearance.py和filter_based_on_result.py过滤数据
格式转换:
- 使用get_train.py转换数据格式

微调

环境配置:
- 安装PyTorch和其他依赖
训练脚本:
- train_WebGen-LM-7B.sh
- train_WebGen-LM-14B.sh
- train_WebGen-LM-32B.sh

引用

bibtex @misc{lu2025webgenbenchevaluatingllmsgenerating, title={WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch}, author={Zimu Lu and Yunqiao Yang and Houxing Ren and Haotian Hou and Han Xiao and Ke Wang and Weikang Shi and Aojun Zhou and Mingjie Zhan and Hongsheng Li}, year={2025}, eprint={2505.03733}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.03733}, }

搜集汇总

数据集介绍

构建方式

WebGen-Bench数据集的构建过程体现了严谨的学术规范与技术创新。研究团队基于Bolt.diy框架开发了自动化网站生成系统，通过OpenRouter等API接口调用多种大语言模型（如deepseek-chat-v3-0324）生成交互式网页。构建流程包含多阶段验证：首先生成原始代码，随后通过WebVoyager UI代理进行功能测试，并采用语义相似度检测和n-gram去重技术确保训练集与测试集的独立性。数据集特别设计了外观评分模块，由专门算法对生成网站的视觉呈现进行量化评估。

使用方法

使用本数据集需搭建完整的评估环境。研究者需先配置Node.js和conda环境，部署修改版的Bolt.diy服务作为生成平台。评估流程支持两种模式：自动化测试通过eval_bolt_diy.py脚本批量执行，UI代理测试则依赖Qwen2.5-VL-32B模型进行交互验证。结果分析阶段可调用compute_acc.py计算功能准确率，配合eval_appearance.py量化外观得分。对于模型训练应用，数据集提供已处理的训练文件格式转换工具，并配套不同规模的训练脚本。所有流程均采用模块化设计，支持研究者灵活调整测试参数和评估指标。

背景与挑战

背景概述

WebGen-Bench数据集由Zimu Lu等研究人员于2025年提出，旨在评估大语言模型（LLMs）从零开始生成交互式功能性网站的能力。该数据集由多个研究机构合作开发，核心研究问题聚焦于探索LLMs在网页生成任务中的表现，包括代码生成、用户界面设计及功能实现等方面。WebGen-Bench的建立填补了网页生成领域评估标准的空白，为相关研究提供了重要的基准测试工具，推动了自动化网页生成技术的发展。

当前挑战

WebGen-Bench面临的挑战主要体现在两个方面：在领域问题方面，网页生成任务涉及复杂的多模态信息处理，包括代码结构生成、视觉元素布局和交互逻辑设计，这对LLMs的综合能力提出了极高要求；在构建过程方面，数据集的创建需确保生成的网站具备功能完整性和视觉美观性，同时需解决训练数据去重和去污染问题，以避免测试集泄露对评估结果的影响。此外，自动化评估生成的网站功能性和美观性也面临技术实现上的挑战。

常用场景

经典使用场景

在自然语言处理领域，WebGen-Bench数据集为评估大型语言模型（LLMs）生成交互式和功能性网站的能力提供了标准化测试平台。该数据集通过模拟真实网页开发场景，要求模型从零开始构建完整网站，涵盖前端代码生成、交互逻辑实现以及视觉设计等多个维度。研究人员可利用该数据集对模型在复杂任务中的代码生成能力、多模态理解及创造性解决问题等方面进行全面测评。

解决学术问题

WebGen-Bench有效解决了当前LLM评估中缺乏专业领域细粒度指标的问题。该数据集通过结构化测试案例，量化模型在网站生成任务中的功能完整性、界面美观度和交互流畅性，填补了生成式AI在Web开发领域评估的空白。其提出的多维度评估框架为衡量模型实际应用能力提供了新范式，推动了代码生成与界面设计交叉领域的研究进展。

实际应用

该数据集直接服务于智能编程助手和自动化网站构建工具的研发。企业可基于其评估结果优化产品原型生成能力，教育机构能用于培训AI辅助开发课程。实际应用中，采用WebGen-Bench测试的模型已成功应用于快速原型设计、无障碍网页自动生成等场景，显著降低了非技术人员创建专业网站的门槛。

数据集最近研究