WebGen-Bench

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/luzimu/WebGen-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

WebGen-Bench是一个用于评估LLM-based agent从头开始生成网站的能力的基准数据集。该数据集包含101个指令和647个测试用例，以及一个名为WebGen-Instruct的训练集，其中包含6667个指令。

创建时间：

2025-05-01

原始信息汇总

WebGen-Bench数据集概述

数据集简介

目的：用于评估基于LLM的代理从零开始生成交互式和功能性网站的能力。
论文：WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch
代码与数据：WebGen-Bench (Github)

数据集内容

测试集：101条指令和647个测试用例。
训练集：6667条指令，名为WebGen-Instruct。

数据集结构

特征

id：字符串类型。
instruction：字符串类型。
Category：结构体，包含：
- primary_category：字符串类型。
- subcategories：字符串序列。
application_type：字符串类型。
ui_instruct：列表，包含：
- task：字符串类型。
- expected_result：字符串类型。
- task_category：结构体，包含：
  - primary_category：字符串类型。
  - subcategories：字符串序列。

数据分块

train：
- 字节数：4038022。
- 样本数：6667。
test：
- 字节数：244776。
- 样本数：101。

下载与存储

下载大小：1566240。
数据集大小：4282798。

任务类别

文本生成。

许可证

MIT许可证。

引用

bibtex @misc{lu2025webgenbenchevaluatingllmsgenerating, title={WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch}, author={Zimu Lu and Yunqiao Yang and Houxing Ren and Haotian Hou and Han Xiao and Ke Wang and Weikang Shi and Aojun Zhou and Mingjie Zhan and Hongsheng Li}, year={2025}, eprint={2505.03733}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.03733}, }

搜集汇总

数据集介绍

构建方式

WebGen-Bench数据集旨在评估基于大型语言模型的代理从零开始生成交互式网站的能力。该数据集构建过程严谨，包含101条指令和647个测试用例，同时提供6667条指令的训练集WebGen-Instruct。数据集的构建基于实际网站生成任务，通过精心设计的测试流程确保数据质量和多样性，涵盖了多种网站类别和应用场景。

特点

WebGen-Bench数据集具有显著的多维特征，包括指令多样性、任务复杂性和功能性验证。数据集中的每条指令均附带详细的UI生成任务描述和预期结果，并通过结构化分类体系（主类别和子类别）对任务进行系统化组织。其独特的测试用例设计能够全面评估生成网站的功能性和交互性，为研究提供了丰富的实验数据。

使用方法

该数据集的使用方法清晰明确，研究人员可通过HuggingFace平台直接获取训练集和测试集。数据集支持文本生成任务，适用于评估和训练网站生成模型。使用前需仔细阅读任务说明，按照提供的测试流程进行模型性能验证。开源代码库中包含完整的评估框架，便于复现实验结果和进行对比分析。

背景与挑战

背景概述

WebGen-Bench数据集由Zimu Lu等研究人员于2025年提出，旨在评估大型语言模型（LLMs）从零开始生成交互式功能性网站的能力。该数据集由明杰展（Mingjie Zhan）团队开发，包含101条指令和647个测试案例，同时提供包含6667条指令的训练集WebGen-Instruct。作为首个专注于网站生成任务的基准测试工具，WebGen-Bench填补了LLMs在复杂前端开发场景中能力评估的空白，为人工智能与网页工程的交叉研究提供了标准化测试平台。其多层级分类体系和结构化评估框架，显著推进了生成式AI在Web开发领域的应用研究。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，网站生成任务要求模型同时掌握视觉布局设计、交互逻辑实现和功能代码生成等跨模态能力，这种多维度要求对现有LLMs的复合推理能力构成严峻考验；在构建过程中，数据收集需平衡创意多样性与技术可行性，测试案例的设计必须覆盖响应式布局、动态交互等专业前端特性，而评估指标的制定则需要量化网站的功能完整性与用户体验等主观维度。这些挑战使得WebGen-Bench成为检验LLMs复杂任务执行能力的试金石。

常用场景

经典使用场景

在自然语言处理领域，WebGen-Bench数据集为评估大型语言模型生成交互式网站的能力提供了标准化测试平台。该数据集通过精心设计的指令集和测试用例，模拟真实场景中从零开始构建网站的全过程，成为衡量模型网页生成性能的黄金基准。研究人员可利用其丰富的训练样本和测试案例，系统性地验证模型在理解复杂指令、生成功能代码以及实现用户交互方面的综合表现。

实际应用

在实际开发场景中，WebGen-Bench支持构建智能网站生成助手的技术验证。前端工程师可基于该数据集训练模型快速原型化网页设计方案，教育机构则能用于培养学生理解需求到代码实现的转化能力。电子商务领域特别受益于其交互组件生成测试，可显著降低定制化店铺页面的开发门槛，实现自然语言到功能页面的端到端转化。

衍生相关工作

该数据集已催生多项网页生成领域的创新研究，包括基于强化学习的渐进式生成框架、多模态提示增强方法等。其测试范式被Adaptive-WebGen等后续工作扩展，支持动态需求调整的评估场景。在代码生成基准领域，相关研究借鉴其功能完整性验证机制，发展出更全面的自动化评估指标体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集