WebUIBench

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/Tele-AI-MAIL/WebUIBench

下载链接

链接失效反馈

官方服务：

资源简介：

WebUIBench是一个大规模的综合基准，用于评估多模态大型语言模型在WebUI-to-Code任务上的性能。该数据集包括来自超过700个真实世界网站的超过21000个问题-答案对，涉及9个子任务。

WebUIBench is a large-scale comprehensive benchmark designed to evaluate the performance of multimodal large language models on the WebUI-to-Code task. This dataset includes over 21,000 question-answer pairs sourced from more than 700 real-world websites, covering 9 subtasks.

创建时间：

2025-05-23

原始信息汇总

WebUIBench 数据集概述

基本信息

许可证: CC-BY-4.0
主页: https://github.com/MAIL-Tele-AI/WebUIBench
论文: WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code

数据集简介

WebUIBench 是一个用于评估多模态大语言模型（MLLMs）在 WebUI-to-Code 任务中性能的大规模综合基准测试。数据集包含：

21K+ 问答对
0.7K+ 真实网站
9 个子任务

子任务配置

Element_Classification
- 特征: id, question, image_id, image, answer, subtask
- 测试集: 950 个样本
- 下载大小: 442,962,174 字节
Attribute_Regconition
- 特征: id, question, image_id, image, answer, subtask
- 测试集: 3,718 个样本
- 下载大小: 1,679,258,113 字节
Visual_Grounding
- 特征: id, question, image_id, image, answer, subtask
- 测试集: 3,934 个样本
- 下载大小: 1,897,962,456 字节
OCR
- 特征: id, question, image_id, image, answer, target_[x1,y1,x2,y2], subtask
- 测试集: 2,460 个样本
- 下载大小: 1,147,237,990 字节
Code_Error_Correction
- 特征: id, question, code_with_error, answer, subtask
- 测试集: 2,635 个样本
- 下载大小: 2,885,440 字节
Code_Function_Editing
- 特征: id, question, function_description, answer, subtask
- 测试集: 2,290 个样本
- 下载大小: 2,712,168 字节
Webpage_HTML_Matching
- 特征: id, question, image_id, image, answer, subtask
- 测试集: 2,143 个样本
- 下载大小: 1,003,289,265 字节
Webpage_HTML_Retrieval
- 特征: id, question, image_id, image, answer, subtask
- 测试集: 2,345 个样本
- 下载大小: 1,109,887,493 字节

联系方式

Zhiyu Lin: zyllin@bjtu.edu.cn
Zhengda Zhou: zhengdazhou@smail.nju.edu.cn
Zhiyuan Zhao: tuzixini@gmail.com

引用

bibtex @article{xx, title={WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code}, author={xx}, journal={arXiv preprint arXiv:xx}, year={2025} }

搜集汇总

数据集介绍

构建方式

WebUIBench数据集通过采集超过0.7K个真实网站的多模态数据，构建了包含21K个问答对的大规模基准测试。该数据集采用模块化设计思路，将复杂的网页转代码任务解构为9个专业子任务，包括元素分类、属性识别、视觉定位等关键技术环节。每个样本均包含图像、文本描述和标准答案三元组，通过严格的标注流程确保数据质量。

特点

作为首个专注于评估多模态大语言模型网页转代码能力的基准，WebUIBench具有显著的专业性和系统性。数据集覆盖视觉定位、OCR识别、代码纠错等跨模态任务，其样本均来自真实网页场景，具有高度实践价值。特别设计的子任务体系能全面检验模型在跨模态推理、元素定位等维度的性能，为相关研究提供精准的评估工具。

使用方法

研究者可通过HuggingFace平台获取数据集各子任务的标准化测试集，每个子任务均提供图像、问题描述和参考答案的对应关系。使用时应根据具体子任务选择相应评估指标，如元素分类采用准确率，视觉定位使用IoU值等。该数据集支持端到端测试和分模块验证两种模式，建议结合论文中的基准测试方案进行系统性评估。

背景与挑战

背景概述

WebUIBench是由MAIL-Tele-AI团队于2024年推出的多模态大语言模型评估基准，旨在系统评估模型在WebUI-to-Code任务中的综合能力。该数据集基于700余个真实网站构建，包含9个子任务类型和超过2.1万个问答对，覆盖了元素分类、视觉定位、OCR识别、代码纠错等多个维度。作为首个专注于网页界面转代码任务的综合性基准，WebUIBench为评估模型的跨模态推理、元素定位和网页布局生成能力提供了标准化测试平台，推动了人机交互界面自动生成领域的研究进展。

当前挑战

WebUIBench致力于解决网页界面自动生成领域的关键挑战，包括跨模态对齐、细粒度元素定位和结构化代码生成等核心问题。在数据集构建过程中，研究人员面临真实网页样本采集的复杂性、多任务标注一致性维护、以及视觉-代码模态对齐等困难。该基准揭示了当前模型在长文本代码生成准确率、动态元素处理能力等方面的显著不足，为后续研究指明了改进方向。

常用场景

经典使用场景

在网页界面设计与开发领域，WebUIBench数据集通过其丰富的多模态数据为研究者提供了评估多模态大语言模型（MLLMs）的标准化平台。该数据集包含超过21K的问答对，覆盖了9种不同的子任务，如元素分类、视觉定位和代码纠错等，使得研究者能够全面测试模型在网页UI到代码转换任务中的表现。

解决学术问题

WebUIBench解决了多模态大语言模型在网页生成任务中的关键挑战，包括跨模态推理、元素定位和网页布局生成等问题。通过提供真实世界网页的多样化数据，该数据集为模型性能的量化评估提供了可靠依据，显著推动了相关领域的研究进展。

衍生相关工作

基于WebUIBench数据集，研究者们已经开展了一系列经典工作，包括改进多模态模型的跨模态理解能力、开发更高效的网页布局生成算法等。这些工作不仅扩展了数据集的应用范围，也为后续研究提供了重要的技术参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集