Web-Bench

Name: Web-Bench
Creator: 字节跳动
Published: 2025-05-12 20:06:23
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

https://github.com/bytedance/web-bench, https://huggingface.co/datasets/bytedance-research/WebBench

下载链接

链接失效反馈

官方服务：

资源简介：

Web-Bench是一个基于网络标准和框架的大语言模型代码基准，包含50个项目，每个项目包含20个具有顺序依赖性的任务。该数据集旨在模拟真实世界的软件开发工作流程，覆盖了网络开发的基础元素，包括网络标准和网络框架。Web-Bench的创建过程由具有5到10年经验的工程师设计，每个项目平均需要4到8小时才能完成。该数据集应用于评估大型语言模型在代码生成方面的能力，旨在解决现有代码基准饱和的问题。

Web-Bench is a code benchmark for large language models (LLMs) based on web standards and frameworks. It comprises 50 projects, each containing 20 sequentially dependent tasks. This dataset is designed to simulate real-world software development workflows and covers core elements of web development, including web standards and frameworks. Developed by engineers with 5 to 10 years of professional experience, each project in Web-Bench takes an average of 4 to 8 hours to complete. This benchmark is utilized to evaluate the code generation capabilities of large language models, aiming to address the saturation issue of existing code benchmarks.

提供机构：

字节跳动

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

Web-Bench数据集的构建基于对Web开发领域核心标准与主流框架的系统性覆盖，采用项目级任务链设计理念。研究团队由5-10年经验的工程师设计了50个完整项目，每个项目包含20个具有顺序依赖关系的开发任务，模拟真实软件开发工作流。项目设计严格遵循两大维度：Web Standards（包括CSS Selector、Flexbox、DOM等基础规范）和Web Frameworks（涵盖React、Vue等效率工具），并通过业务场景抽样（游戏、工具、图表等8类）确保工程真实性。数据采集过程采用Docker容器化评估体系，通过Playwright实现端到端测试验证，平均每个项目包含72.4个测试用例。

使用方法

使用该数据集需遵循标准化评估流程：通过Docker容器初始化环境后，配置模型参数（contextLength、temperature等）并选择Local/HTTP-Agent模式。评估器按task.jsonl顺序执行任务链，每个任务经历代码生成→环境初始化→构建检查→Playwright测试四阶段，失败任务可注入错误上下文进行重试。研究人员可通过修改config.json5定制评估范围，支持单项目深度分析或多模型横向对比。高级用法包括：利用eval目录校准项目设计、通过shared文件夹优化大项目传输效率、扩展ModelProvider接口接入新模型。结果报告自动生成于eval/report目录，含详细通过率分析与错误类型统计。

背景与挑战

背景概述

Web-Bench是由字节跳动（ByteDance）的研究团队于2025年提出的一个基于Web标准和框架的大型语言模型（LLM）代码生成基准测试数据集。该数据集旨在解决现有代码生成基准测试（如HumanEval和MBPP）逐渐饱和的问题，通过模拟真实世界的Web开发工作流程来评估LLM在实际项目中的表现。Web-Bench包含50个项目，每个项目由20个具有顺序依赖关系的任务组成，覆盖了Web开发的核心标准和主流框架，如HTML、CSS、JavaScript、React、Vue等。该数据集的创建标志着LLM评估从单一函数生成向复杂软件工程任务的转变，为相关领域的研究提供了新的评估工具和方向。

当前挑战

Web-Bench面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，Web-Bench旨在解决LLM在复杂Web开发任务中的表现评估问题，包括对Web标准和框架的理解、多任务顺序依赖关系的处理以及项目级代码生成的准确性。这些任务的复杂性远高于传统的单一函数生成任务，对LLM的能力提出了更高要求。在构建过程中，挑战包括：1) 设计具有真实复杂度的项目任务，确保其既能反映实际开发场景又能在合理时间内完成评估；2) 确保任务之间的顺序依赖关系合理且可测试；3) 覆盖广泛的Web标准和框架，同时保持数据集的平衡性和代表性；4) 开发高效的评估工具和流程，以支持大规模自动化测试。

常用场景

经典使用场景

Web-Bench作为基于Web标准和框架的LLM代码基准测试数据集，其经典使用场景主要集中在评估大型语言模型在完整Web开发项目中的编码能力。该数据集通过模拟真实开发流程中的50个具有任务依赖性的项目，覆盖了从UI框架到数据库操作的全栈开发环节，为研究者提供了衡量模型在复杂工程环境下代码生成质量的标准化平台。尤其在评估模型对Web核心标准（如CSS Grid、DOM操作）和主流框架（如React、Next.js）的理解深度时，Web-Bench展现出独特的场景还原能力。

解决学术问题

该数据集有效解决了传统代码基准测试饱和化的学术困境。针对HumanEval等早期基准在代码生成准确率上接近99%的饱和现象，Web-Bench通过引入项目级任务依赖关系和真实工程复杂度，建立了更具区分度的评估维度。其设计的20个连续性任务模拟了特征迭代开发过程，能够系统评估模型在代码可维护性、框架适配性和工程规范遵循等方面的能力，为LLM在软件工程领域的性能优化提供了新的研究切入点。

实际应用

在实际应用层面，Web-Bench被广泛用于智能编程助手的性能调优。科技公司通过该数据集验证模型在React组件开发、Express.js后端服务构建等具体场景的实用性，例如评估模型生成的代码是否符合Tailwind CSS最佳实践或Prisma ORM规范。教育机构则利用其任务序列设计来构建渐进式编程教学系统，而开源社区参考其项目结构优化自动化测试工具链的兼容性验证。

数据集最近研究