Web2Code

Name: Web2Code
Creator: MBZUAI
Published: 2024-06-29 01:59:46
License: 暂无描述

arXiv2024-06-29 更新2024-07-22 收录

下载链接：

https://github.com/MBZUAI-LLM/web2code

下载链接

链接失效反馈

官方服务：

资源简介：

Web2Code数据集由MBZUAI创建，旨在提升多模态大型语言模型（MLLMs）在网页理解和HTML代码生成方面的能力。该数据集包含1179.7万条网页指令-响应对，内容包括网页图像、HTML代码及相关的结构化问题和答案。数据集的创建过程中，利用了GPT-3.5和GPT-4对现有数据进行清洗和生成新数据。Web2Code数据集主要应用于网页内容生成和任务自动化领域，旨在解决现有MLLMs在处理网页截图和生成HTML代码方面的不足。

The Web2Code dataset, created by MBZUAI, is designed to enhance the capabilities of multimodal large language models (MLLMs) in web page understanding and HTML code generation. This dataset contains 11.797 million web page instruction-response pairs, covering web page images, HTML code, as well as related structured questions and answers. During the dataset construction process, GPT-3.5 and GPT-4 were utilized to clean existing data and generate new data. The Web2Code dataset is mainly applied in the fields of web content generation and task automation, aiming to address the shortcomings of existing MLLMs in handling web page screenshots and generating HTML code.

提供机构：

MBZUAI

创建时间：

2024-06-29

原始信息汇总

Web2Code 数据集概述

基本信息

机构: Mohamed bin Zayed University of Artificial Intelligence
资源链接:

评估基准套件

网页代码生成基准: 提供环境设置、截图生成和评估的详细指南。
网页理解基准: 提供环境设置、输出生成和评估的清晰说明。

致谢

LLaVA: 基于其代码库构建。
WebSRC, WebSight, Pix2Code: 高质量的网页和HTML代码相关数据集。

引用

@article{web2code2024, title={Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs}, author={Sukmin Yun and Haokun Lin and Rusiru Thushara and Mohammad Qazim Bhat and Yongxin Wang and Zutao Jiang and Mingkai Deng and Jinhong Wang and Tianhua Tao and Junbo Li and Haonan Li and Preslav Nakov and Timothy Baldwin and Zhengzhong Liu and Eric P. Xing and Xiaodan Liang and Zhiqiang Shen}, journal={arXiv preprint arXiv:2406.20098}, year={2024} }

许可证

数据许可证: CC BY 4.0（仅允许非商业用途）
使用和许可证说明: 数据仅用于研究目的，不得用于商业用途。

搜集汇总

数据集介绍

构建方式

Web2Code数据集的构建旨在填补多模态大型语言模型（MLLMs）在理解网页截图和生成相应HTML代码方面的不足。数据集的构建分为四个关键部分：生成新的网页图像-代码对数据、改进现有的网页代码生成数据、创建新的文本问答对数据以及改进现有的网页理解数据。利用预训练的大型语言模型（LLMs）如GPT-3.5和GPT-4，数据集不仅增强了现有数据的质量，还生成了新的网页，并将其转换为图像。数据集的输入为网页图像和指令，输出为网页的HTML代码，并包括关于网页内容的多样化的自然语言问答对，以促进对网页内容的更全面理解。

特点

Web2Code数据集的特点在于其大规模和多样性。数据集包含1179.7万个网页指令响应对，其中响应包括HTML代码以及关于网页内容的结构化问答对。数据集涵盖了丰富的网页结构和设计元素，如不同风格的网页、多样化的HTML标签和DOM深度。此外，数据集还包括了5,990个“是/否”问答对，用于网页理解基准测试，以及1,198个网页截图，用于网页代码生成基准测试。这些特点使得Web2Code数据集成为评估和训练MLLMs理解和生成网页代码能力的宝贵资源。

使用方法

使用Web2Code数据集进行模型训练和评估，可以通过以下步骤进行：首先，将数据集中的网页图像和指令作为输入，将网页的HTML代码作为输出。其次，利用预训练的视觉编码器和LLM，通过指令调整的方式训练模型。最后，使用数据集中的问答对和网页截图进行模型评估，以检验模型在网页理解和代码生成方面的能力。通过这种方式，Web2Code数据集可以有效地提升MLLMs在网页相关任务上的表现，并促进其在内容生成和任务自动化方面的应用。

背景与挑战

背景概述

Web2Code数据集，由MBZUAI、CMU、UIUC、HYU ERICA、Petuum和SYSU等机构共同研发，旨在促进多模态大型语言模型（MLLMs）在网页理解和代码生成方面的能力。该数据集创建于2024年，旨在解决现有MLLMs在理解网页截图和生成对应HTML代码方面的不足。数据集的核心研究问题在于如何通过指令微调，提升MLLMs在网页理解和代码生成方面的能力，从而推动相关领域的发展，并为其在网页内容生成和任务自动化中的应用奠定基础。

当前挑战

Web2Code数据集面临的挑战包括：1) 如何有效地利用大规模指令数据集和评估基准来提升MLLMs在网页理解和代码生成方面的能力；2) 如何构建高质量、多样化的网页图像-代码对数据集，以满足不同复杂度和类型的网页内容需求；3) 如何设计合理的评估框架，全面评估MLLMs在网页理解和代码生成方面的性能，包括视觉结构、内容一致性、颜色和美学设计、文本内容和用户界面及交互等方面；4) 如何确保数据集的公平性和代表性，避免潜在的数据偏差和隐私问题。

常用场景

经典使用场景

Web2Code数据集主要被用于多模态大型语言模型（MLLMs）的指令微调和评估框架。该数据集包含了网页图像和指令作为输入，以及对应的HTML代码和关于网页内容的自然语言问答对作为输出。这使得数据集适合用于训练MLLMs理解网页内容和生成HTML代码的能力。此外，数据集还包含了网页理解评估框架（WUB）和网页代码生成评估框架（WCGB），用于评估模型在网页理解和代码生成任务中的性能。

解决学术问题

Web2Code数据集解决了当前多模态大型语言模型在理解和生成网页截图及其对应HTML代码方面的不足。该数据集提供了高质量的网页图像和指令，以及对应的HTML代码和问答对，使得模型可以更好地理解和生成网页代码。此外，Web2Code数据集还提出了新的评估框架，用于评估模型在网页理解和代码生成任务中的性能，为相关研究提供了新的基准。

衍生相关工作

Web2Code数据集的提出引发了相关领域的一系列研究工作。例如，一些研究者使用Web2Code数据集对MLLMs进行指令微调，并取得了显著的性能提升。此外，一些研究者还基于Web2Code数据集提出了新的评估框架和性能指标，为相关研究提供了新的参考。

以上内容由遇见数据集搜集并总结生成