WebGen-Bench
收藏github2025-05-08 更新2025-05-10 收录
下载链接:
https://github.com/mnluzimu/WebGen-Bench
下载链接
链接失效反馈官方服务:
资源简介:
WebGen-Bench是一个用于评估LLMs在从零开始生成交互式和功能性网站的数据集。
WebGen-Bench is a dataset for evaluating LLMs' ability to generate interactive and functional websites from scratch.
创建时间:
2025-04-30
原始信息汇总
WebGen-Bench 数据集概述
数据集基本信息
- 名称: WebGen-Bench
- 用途: 评估大型语言模型(LLMs)在从零开始生成交互式和功能性网站的能力
- 相关论文: WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
数据集获取方式
- Hugging Face: luzimu/WebGen-Bench
- Kaggle: WebGen-Bench
- 本地存储: 数据已存放在
data目录下
模型权重
- WebGen-LM-7B: luzimu/WebGen-LM-7B
- WebGen-LM-14B: luzimu/WebGen-LM-14B
- WebGen-LM-32B: luzimu/WebGen-LM-32B
实验输出
- 位置:
outputs.zip - 内容: 论文中测试的基于LLM的代理输出
测试方法
测试Bolt.diy
- 安装与启动:
- 安装Node.js和pm2
- 配置Bolt.diy服务
- 自动测试:
- 使用
eval_bolt_diy.py进行测试 - 输出结果存储在
downloads目录下
- 使用
- UI代理评估:
- 使用WebVoyager UI代理进行测试
- 结果存储在
extracted/results目录下
- 计算准确率:
- 使用
compute_acc.py计算准确率 - 结果记录在
table.md文件中
- 使用
- 外观评分:
- 使用
eval_appearance.py生成外观评分 - 使用
compute_grade.py计算平均外观评分
- 使用
测试OpenHands
- 使用仓库: OpenHands-WebGen-Fork
- 运行命令:
python src/test_webgen-bench/test_webgen_bench.py
测试Aider
- 使用仓库: Aider-WebGen-Fork
- 运行命令:
python ..srcatch_generate.py
训练WebGen-LM
数据去重与净化
- 工具:
rule_deduplication.py,decontamination_ngram.py,test_decontamination_semantic.py - 输出: 净化后的训练数据存储在
data/train_processed目录下
生成训练数据
- 数据生成:
- 使用
eval_bolt_diy.py生成训练数据
- 使用
- 数据过滤:
- 使用
eval_appearance.py和filter_based_on_result.py过滤数据
- 使用
- 格式转换:
- 使用
get_train.py转换数据格式
- 使用
微调
- 环境配置:
- 安装PyTorch和其他依赖
- 训练脚本:
train_WebGen-LM-7B.shtrain_WebGen-LM-14B.shtrain_WebGen-LM-32B.sh
引用
bibtex @misc{lu2025webgenbenchevaluatingllmsgenerating, title={WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch}, author={Zimu Lu and Yunqiao Yang and Houxing Ren and Haotian Hou and Han Xiao and Ke Wang and Weikang Shi and Aojun Zhou and Mingjie Zhan and Hongsheng Li}, year={2025}, eprint={2505.03733}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.03733}, }
搜集汇总
数据集介绍

构建方式
WebGen-Bench数据集的构建过程体现了严谨的学术规范与技术创新。研究团队基于Bolt.diy框架开发了自动化网站生成系统,通过OpenRouter等API接口调用多种大语言模型(如deepseek-chat-v3-0324)生成交互式网页。构建流程包含多阶段验证:首先生成原始代码,随后通过WebVoyager UI代理进行功能测试,并采用语义相似度检测和n-gram去重技术确保训练集与测试集的独立性。数据集特别设计了外观评分模块,由专门算法对生成网站的视觉呈现进行量化评估。
使用方法
使用本数据集需搭建完整的评估环境。研究者需先配置Node.js和conda环境,部署修改版的Bolt.diy服务作为生成平台。评估流程支持两种模式:自动化测试通过eval_bolt_diy.py脚本批量执行,UI代理测试则依赖Qwen2.5-VL-32B模型进行交互验证。结果分析阶段可调用compute_acc.py计算功能准确率,配合eval_appearance.py量化外观得分。对于模型训练应用,数据集提供已处理的训练文件格式转换工具,并配套不同规模的训练脚本。所有流程均采用模块化设计,支持研究者灵活调整测试参数和评估指标。
背景与挑战
背景概述
WebGen-Bench数据集由Zimu Lu等研究人员于2025年提出,旨在评估大语言模型(LLMs)从零开始生成交互式功能性网站的能力。该数据集由多个研究机构合作开发,核心研究问题聚焦于探索LLMs在网页生成任务中的表现,包括代码生成、用户界面设计及功能实现等方面。WebGen-Bench的建立填补了网页生成领域评估标准的空白,为相关研究提供了重要的基准测试工具,推动了自动化网页生成技术的发展。
当前挑战
WebGen-Bench面临的挑战主要体现在两个方面:在领域问题方面,网页生成任务涉及复杂的多模态信息处理,包括代码结构生成、视觉元素布局和交互逻辑设计,这对LLMs的综合能力提出了极高要求;在构建过程方面,数据集的创建需确保生成的网站具备功能完整性和视觉美观性,同时需解决训练数据去重和去污染问题,以避免测试集泄露对评估结果的影响。此外,自动化评估生成的网站功能性和美观性也面临技术实现上的挑战。
常用场景
经典使用场景
在自然语言处理领域,WebGen-Bench数据集为评估大型语言模型(LLMs)生成交互式和功能性网站的能力提供了标准化测试平台。该数据集通过模拟真实网页开发场景,要求模型从零开始构建完整网站,涵盖前端代码生成、交互逻辑实现以及视觉设计等多个维度。研究人员可利用该数据集对模型在复杂任务中的代码生成能力、多模态理解及创造性解决问题等方面进行全面测评。
解决学术问题
WebGen-Bench有效解决了当前LLM评估中缺乏专业领域细粒度指标的问题。该数据集通过结构化测试案例,量化模型在网站生成任务中的功能完整性、界面美观度和交互流畅性,填补了生成式AI在Web开发领域评估的空白。其提出的多维度评估框架为衡量模型实际应用能力提供了新范式,推动了代码生成与界面设计交叉领域的研究进展。
实际应用
该数据集直接服务于智能编程助手和自动化网站构建工具的研发。企业可基于其评估结果优化产品原型生成能力,教育机构能用于培训AI辅助开发课程。实际应用中,采用WebGen-Bench测试的模型已成功应用于快速原型设计、无障碍网页自动生成等场景,显著降低了非技术人员创建专业网站的门槛。
数据集最近研究
最新研究方向
在人工智能与网页生成领域,WebGen-Bench数据集正推动着大语言模型(LLM)在零样本交互式网站构建能力的前沿探索。当前研究聚焦于多模态模型对UI设计逻辑的语义理解、动态功能代码的生成质量,以及生成网站的可交互性评估框架构建。该数据集通过融合视觉外观评分、功能测试代理和语义去污染技术,为衡量模型在真实场景下的网页生成能力提供了标准化基准。2025年arXiv发布的关联论文显示,基于WebGen-LM系列模型的微调方法已实现32B参数规模下的端到端网站生成,其评估体系涵盖自动化测试、人工评分和视觉对齐度分析,为AIGC在低代码开发领域的应用提供了重要技术参照。
以上内容由遇见数据集搜集并总结生成



