Web2Code

github2024-07-01 更新2024-07-03 收录

下载链接：

https://github.com/MBZUAI-LLM/web2code

下载链接

链接失效反馈

官方服务：

资源简介：

Web2Code是一个大规模的网页到代码数据集，用于多模态大型语言模型的评估框架。该数据集旨在帮助研究人员在网页相关的任务中进行代码生成和理解。

Web2Code is a large-scale web-to-code dataset designed as an evaluation framework for multimodal large language models. It is intended to assist researchers in conducting code generation and understanding tasks focused on web-related scenarios.

创建时间：

2024-06-05

原始信息汇总

Web2Code 数据集概述

基本信息

机构: Mohamed bin Zayed University of Artificial Intelligence
资源链接:

数据集内容

数据集名称: Web2Code
描述: 一个大规模的网页到代码数据集和评估框架，用于多模态大型语言模型。

评估基准套件

网页代码生成基准: 提供环境设置、截图生成和评估的详细指南。
网页理解基准: 提供环境设置、输出生成和评估的清晰说明。

引用信息

@article{web2code2024, title={Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs}, author={Sukmin Yun and Haokun Lin and Rusiru Thushara and Mohammad Qazim Bhat and Yongxin Wang and Zutao Jiang and Mingkai Deng and Jinhong Wang and Tianhua Tao and Junbo Li and Haonan Li and Preslav Nakov and Timothy Baldwin and Zhengzhong Liu and Eric P. Xing and Xiaodan Liang and Zhiqiang Shen}, journal={arXiv preprint arXiv:2406.20098}, year={2024} }

许可信息

数据许可: CC BY 4.0（仅允许非商业用途）
使用和许可声明: 该数据集仅用于研究目的，不得用于商业用途。

搜集汇总

数据集介绍

构建方式

Web2Code数据集的构建基于大规模的网页与代码对，旨在为多模态大型语言模型（LLMs）提供一个全面的评估框架。该数据集通过自动化工具从互联网上抓取网页，并生成相应的代码片段，确保了数据的高质量和多样性。构建过程中，研究团队还引入了多种高质量的网页和HTML代码相关数据集，如WebSRC、WebSight和Pix2Code，以增强数据集的丰富性和实用性。

特点

Web2Code数据集的显著特点在于其大规模和多模态的特性。该数据集不仅包含了丰富的网页截图和对应的代码生成任务，还提供了全面的评估基准，涵盖了网页代码生成和网页理解等多个方面。此外，数据集的构建过程中采用了多种高质量的参考数据集，确保了数据的多样性和实用性，使其成为多模态LLMs研究和应用的理想选择。

使用方法

使用Web2Code数据集时，用户可以参考提供的训练代码和评估基准，进行网页代码生成和网页理解任务的训练和评估。数据集的详细使用方法包括设置环境、生成网页截图、运行评估等步骤，均在相应的README文件中有详细说明。此外，数据集的MIT许可证允许用户在遵守相关条款的前提下，自由使用和分发数据集，适用于学术研究和商业应用。

背景与挑战

背景概述

Web2Code数据集由Mohamed bin Zayed University of Artificial Intelligence创建，旨在为多模态大语言模型（LLMs）提供一个大规模的网页到代码转换的评估框架。该数据集的核心研究问题是如何高效地将网页内容转换为可执行的代码，从而推动网页理解和生成的研究。自2024年6月发布以来，Web2Code不仅为学术界提供了一个全新的研究平台，还对工业界在自动化网页开发和优化方面产生了深远影响。

当前挑战

Web2Code数据集在构建过程中面临了多个挑战。首先，网页内容的多样性和复杂性使得数据标注和处理变得异常困难。其次，确保生成的代码与原始网页内容的高度一致性是一个技术难题。此外，评估框架的建立需要考虑到多模态数据的融合与处理，这增加了系统的复杂性和计算资源的消耗。最后，数据集的规模和质量要求在保证数据多样性的同时，还需确保数据的一致性和准确性。

常用场景

经典使用场景

Web2Code数据集在多模态大语言模型（LLMs）的网页代码生成和理解任务中展现了其经典应用。该数据集通过提供大规模的网页截图与对应的HTML代码，使得研究人员能够训练和评估模型在网页内容解析和代码生成方面的能力。例如，通过Web2Code，研究者可以开发出能够自动将网页设计转化为可执行代码的模型，这在网页开发自动化领域具有重要意义。

解决学术问题

Web2Code数据集解决了多模态学习中网页内容与代码之间映射的学术难题。它通过提供丰富的网页截图和对应的HTML代码，为研究者提供了一个标准化的评估框架，促进了多模态大语言模型在网页理解和代码生成任务中的研究。这一数据集的引入，不仅推动了相关领域的技术进步，还为学术界提供了新的研究方向和实验基准。

衍生相关工作

基于Web2Code数据集，研究者们开发了多种相关的经典工作。例如，LLaVA项目利用Web2Code数据集改进了多模态大语言模型的训练方法，显著提升了模型在网页理解和代码生成任务中的表现。此外，WebSRC和WebSight等项目也借鉴了Web2Code的设计理念，进一步扩展了网页与代码相关数据集的应用范围。这些衍生工作不仅丰富了数据集的应用场景，还推动了多模态学习技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集