Design2Code-HARD

Name: Design2Code-HARD
Creator: Social And Language Technology Lab
Published: 2024-11-02 08:32:53
License: 暂无描述

Hugging Face2024-11-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SALT-NLP/Design2Code-HARD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含80个来自Github Pages的额外困难的网页，旨在挑战最先进的（SoTA）多模态大语言模型（LLMs）将视觉设计转换为代码实现的能力。每个示例都是一对源HTML和截图（{id}.html和{id}.png）。所有网页中的图像都被替换为一个占位符图像（rick.jpg）。此外，数据集还有一个“简单”版本，可以在指定的链接中找到。更多信息可以参考项目页面和论文。

提供机构：

Social And Language Technology Lab

创建时间：

2024-11-02

原始信息汇总

Design2Code-HARD 数据集概述

数据集描述

数据来源: 80个来自Github Pages的额外困难网页。
数据类型: 每个示例包含一对源HTML文件和对应的截图（{id}.html 和 {id}.png）。
数据用途: 用于挑战当前最先进的多模态大型语言模型（LLMs），测试其将视觉设计转换为代码实现的能力。

数据集特点

图像替换: 所有网页中的图像均被替换为占位符图像（rick.jpg）。

相关资源

简单版本: 参见 Design2Code 简单版本。
项目页面: 更多信息请访问 Design2Code 项目页面。
论文: 相关研究论文可在 arXiv 查阅。

搜集汇总

数据集介绍

构建方式

Design2Code-HARD数据集构建于GitHub Pages平台上，精选了80个极具挑战性的网页样本，旨在测试当前最先进的多模态大语言模型在将视觉设计转化为代码实现方面的能力。每个样本均包含源HTML文件与对应的网页截图，确保了数据的完整性与实用性。为了统一处理，所有网页中的图像均被替换为占位符图像（rick.jpg），从而简化了数据处理的复杂性。

特点

该数据集的特点在于其高难度样本的选取，这些样本不仅涵盖了复杂的网页设计，还要求模型具备强大的多模态理解与转换能力。通过提供HTML文件与网页截图的配对，数据集为研究者提供了一个全面的测试平台，能够有效评估模型在视觉到代码转换任务中的表现。此外，所有图像的标准化处理进一步提升了数据集的易用性与一致性。

使用方法

使用Design2Code-HARD数据集时，研究者可以通过加载HTML文件与对应的网页截图，进行多模态模型的训练与评估。数据集的设计使得用户能够直接测试模型在复杂网页设计转换任务中的性能。为了更深入地理解数据集的应用场景，建议参考项目页面与相关论文，以获取更多关于数据集构建与使用的详细信息。

背景与挑战

背景概述

Design2Code-HARD数据集由SALT-NLP团队于2024年创建，旨在挑战当前最先进的多模态大语言模型（SoTA multimodal LLMs）在将视觉设计转换为代码实现方面的能力。该数据集包含80个来自GitHub Pages的复杂网页示例，每个示例由HTML源代码和对应的网页截图组成。该数据集的构建基于其前身Design2Code的“简单”版本，进一步提升了任务的难度，以测试模型在复杂场景下的表现。该数据集的研究背景源于网页设计与前端开发领域，其核心研究问题在于如何通过自动化手段将视觉设计高效、准确地转化为可执行的代码，从而减少人工开发的工作量。该数据集的发布为多模态模型的研究提供了新的基准，推动了相关领域的技术进步。

当前挑战

Design2Code-HARD数据集所解决的核心领域问题是如何将复杂的视觉设计自动转换为代码实现，这一任务面临诸多挑战。首先，网页设计的多样性和复杂性使得模型需要具备强大的多模态理解能力，以准确解析视觉元素并生成对应的代码。其次，数据集中所有图像均被替换为占位符图像，这增加了模型在缺乏真实视觉信息情况下的推理难度。在构建过程中，研究人员需要从GitHub Pages中筛选出具有代表性的复杂网页，并确保数据的高质量和多样性，这一过程对数据采集和预处理提出了较高要求。此外，如何设计有效的评估指标以衡量模型在复杂场景下的表现，也是该数据集面临的重要挑战之一。

常用场景

经典使用场景

在网页设计与前端开发领域，Design2Code-HARD数据集被广泛用于测试和评估多模态大语言模型（LLMs）在将视觉设计转化为代码实现方面的能力。该数据集包含80个高难度的网页样本，每个样本由HTML源代码和对应的网页截图组成，为研究者提供了一个极具挑战性的测试平台。

衍生相关工作

基于Design2Code-HARD数据集，研究者们开展了一系列相关研究，包括多模态模型在网页生成中的性能优化、视觉设计与代码生成的映射关系分析等。这些工作不仅推动了多模态LLMs的发展，也为网页自动化生成技术的进步提供了理论支持和实践指导。

数据集最近研究