MRWeb Dataset
收藏github2024-12-23 更新2024-12-30 收录
下载链接:
https://github.com/WebPAI/MRWeb
下载链接
链接失效反馈官方服务:
资源简介:
我们的实验数据(包括原始数据和生成数据)可在`/dataset_collection/all_data`中找到。
Our experimental data, including both raw and generated data, is available at `/dataset_collection/all_data`.
创建时间:
2024-12-19
原始信息汇总
MRWeb数据集概述
数据集简介
MRWeb数据集是为论文《MRWeb: An Exploration of Generating Multi-Page Resource-Aware Web Code from UI Designs》提供的实验数据。该数据集包含500个网站(300个合成网站和200个真实网站),用于支持多页面资源感知网页(MRWeb)生成任务的研究。
数据集内容
- MRWeb生成管道的代码实现:包括Python脚本和运行MRWeb的指令,用于预处理网站并从截图生成带有资源列表的UI代码。
- MRWeb数据集:实验数据(原始数据和生成数据)位于
/dataset_collection/all_data目录下。 - 图像质量评估数据集:包含人工标注的图像对,用于图像质量评估,需通过邮件申请获取。
数据集特点
- 多页面支持:MRWeb支持多页面导航、真实图像加载和后端路由。
- 资源列表:引入资源列表数据结构,用于跟踪资源、链接和设计组件,提升导航功能和视觉相似性。
数据集应用
- 研究多页面网页生成:通过MRWeb任务,研究如何将UI设计转化为多页面、功能性的网页UI。
- 评估MLLM性能:使用MRWeb数据集评估多语言模型(MLLM)在MRWeb任务中的表现。
数据集获取
- MRWeb数据集:可通过GitHub仓库获取。
- 图像质量评估数据集:需通过邮件申请获取,联系邮箱为yxwan9@cse.cuhk.edu.hk。
相关资源
- MRWeb工具:提供基于MRWeb的用户友好工具,支持从UI设计到资源感知、可导航网站的无代码开发。
- 演示视频:展示MRWeb工具的使用方法,视频链接为https://github.com/user-attachments/assets/8b759d7d-21d5-49a3-96c6-b07d30384e98。
搜集汇总
数据集介绍

构建方式
MRWeb数据集的构建过程体现了对多页面网页生成任务的深入探索。研究团队通过整合300个合成网站和200个真实世界网站,形成了一个包含500个网站的数据集。该数据集不仅涵盖了单页网页,还特别关注了多页面、资源感知的网页生成任务。数据集的构建过程中,研究团队引入了一种新颖的资源列表数据结构,用于追踪资源、链接和设计组件,从而确保生成的网页具备内部/外部导航、图像加载和后端路由等功能。
特点
MRWeb数据集的特点在于其专注于多页面、资源感知的网页生成任务。与传统的单页网页生成方法不同,该数据集强调网页的多页面导航、真实图像加载和后端路由功能。通过引入资源列表数据结构,数据集显著提升了生成网页的视觉相似性和导航功能,将导航功能从0%提升至66%-80%。此外,数据集还提供了图像质量评估数据,进一步丰富了其在网页生成任务中的应用价值。
使用方法
MRWeb数据集的使用方法包括数据预处理、实验运行和指标计算三个主要步骤。用户首先通过Python脚本对网站进行预处理,随后运行MRWeb实验以生成UI代码。实验过程中,用户需要提供相应的API密钥,并可通过命令行工具进行计算指标的评估。此外,MRWeb工具提供了一个用户友好的界面,用户可以通过上传设计图像并绘制边界框来指定元素及其对应资源,从而生成资源感知的网页代码。
背景与挑战
背景概述
MRWeb数据集由香港中文大学的研究团队于2023年发布,旨在解决多页面网页生成中的资源感知问题。该数据集的核心研究问题是如何将用户界面设计转化为功能完备的多页面网页,同时支持内部/外部导航、图像加载和后端路由。研究团队提出了一种新颖的资源列表数据结构,用于跟踪资源、链接和设计组件。该数据集包含500个网站(300个合成网站和200个真实网站),为多页面网页生成任务提供了丰富的实验数据。MRWeb数据集的发布为网页生成领域的研究提供了新的视角和工具,推动了多页面网页生成技术的发展。
当前挑战
MRWeb数据集在解决多页面网页生成问题时面临多重挑战。首先,现有的设计到代码生成方法通常局限于单页面、自包含的网页,无法处理多页面和外部资源连接的问题。其次,构建过程中需要处理大量复杂的资源列表和导航结构,确保生成的网页在视觉和功能上与设计保持一致。此外,评估生成网页的相似性和功能性也是一个重要挑战,研究团队提出了新的评估指标和框架来解决这一问题。最后,如何在真实工作流程中有效应用MRWeb工具,进一步提升其在实际开发中的实用性,也是未来研究的重要方向。
常用场景
经典使用场景
MRWeb数据集在网页生成领域具有重要应用,特别是在多页面资源感知网页生成任务中。该数据集通过将UI设计转化为功能完备的多页面网页,支持内部和外部导航、图像加载以及后端路由。研究人员可以利用该数据集评估不同生成方法在多页面网页生成中的表现,特别是在资源列表的引入对导航功能和视觉相似性的影响。
解决学术问题
MRWeb数据集解决了现有设计到代码生成方法在简化假设上的局限性,特别是单页面、自包含网页的生成问题。通过引入资源列表数据结构,该数据集显著提升了多页面网页的导航功能,从0%提升至66%-80%,同时增强了生成网页的视觉相似性。此外,该数据集为评估多语言模型在MRWeb任务中的性能提供了新的指标和框架。
衍生相关工作
MRWeb数据集的发布促进了多页面资源感知网页生成领域的相关研究。基于该数据集,研究人员提出了多种改进的生成方法和评估框架,进一步推动了多语言模型在网页生成任务中的应用。此外,该数据集还启发了对图像质量评估和资源列表优化等问题的深入研究,为网页生成技术的发展提供了新的方向。
以上内容由遇见数据集搜集并总结生成



