five

biglab/webui-350k

收藏
Hugging Face2023-05-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglab/webui-350k
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: other --- This data accompanies the WebUI project (https://dl.acm.org/doi/abs/10.1145/3544548.3581158) For more information, check out the project website: https://uimodeling.github.io/ To download this dataset, you need to install the huggingface-hub package ``` pip install huggingface-hub ``` Use snapshot_download ``` from huggingface_hub import snapshot_download snapshot_download(repo_id="biglab/webui-350k", repo_type="dataset") ``` IMPORTANT * Before downloading and using, please review the copyright info here: https://github.com/js0nwu/webui/blob/main/COPYRIGHT.txt * Not all data samples have the same number of files (e.g., same number of device screenshots) due to the fact that the crawler used a timeout during collection * The dataset released on HuggingFace was filtered using a list of explicit words and therefore contains fewer samples than the experiments originally used in the paper. The raw dataset is currently available (https://drive.google.com/drive/folders/1hcO75W2FjsZoibsj2TIbKz67hy9JkOBz?usp=share_link) but may be removed in the future.

许可证:其他 本数据集配套于WebUI项目(论文链接:https://dl.acm.org/doi/abs/10.1145/3544548.3581158) 如需获取更多信息,请访问项目官网:https://uimodeling.github.io/ 如需下载本数据集,请先安装huggingface-hub工具包: pip install huggingface-hub 使用快照下载接口的代码示例如下: python from huggingface_hub import snapshot_download snapshot_download(repo_id="biglab/webui-350k", repo_type="dataset") 【重要提示】 * 在下载和使用本数据集前,请务必查阅此处的版权声明:https://github.com/js0nwu/webui/blob/main/COPYRIGHT.txt * 由于数据采集阶段爬虫设置了超时机制,并非所有数据样本的文件数量(例如设备截图的数量)均保持一致 * HuggingFace平台上发布的本数据集已通过明示违规词汇列表进行过滤,因此样本数量少于论文原实验所用的数据集。原始数据集目前可通过以下链接获取:https://drive.google.com/drive/folders/1hcO75W2FjsZoibsj2TIbKz67hy9JkOBz?usp=share_link,但未来可能会被移除。
提供机构:
biglab
原始信息汇总

数据集概述

数据集名称

  • 名称: WebUI-350k
  • 仓库ID: biglab/webui-350k

数据集来源

数据集下载

  • 下载方法: 使用huggingface_hubsnapshot_download功能
    • 安装命令: pip install huggingface-hub
    • 下载代码: python from huggingface_hub import snapshot_download snapshot_download(repo_id="biglab/webui-350k", repo_type="dataset")

数据集特点

  • 版权信息: 下载和使用前需审查版权信息
  • 数据样本: 由于爬虫在收集过程中使用了超时机制,并非所有数据样本具有相同数量的文件
  • 数据过滤: 数据集在发布到HuggingFace之前,已使用明确词汇列表进行过滤,因此样本数量少于论文实验中使用的原始数据集
  • 原始数据集: 原始数据集可在Google Drive获取,但未来可能会被移除

许可证

  • 许可证类型: other
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为biglab/webui-350k,其构建基于WebUI项目的研究成果。数据集的构建采用了网络爬虫技术,搜集了众多网页用户界面(UI)的截图,旨在为UI模型研究提供丰富的实验素材。构建过程中,爬虫设定了超时限制,导致部分样本中的设备截图数量不一。此外,数据集在发布前经过筛选,移除了包含明确词汇的样本,以保障数据质量。
使用方法
使用biglab/webui-350k数据集前,用户需先安装huggingface-hub包。通过调用snapshot_download函数,用户可以从HuggingFace平台下载该数据集。在使用前,用户应当仔细阅读并遵守版权信息。需要注意的是,由于构建时的限制,数据集中的样本可能包含不同数量的设备截图,用户在使用时应当考虑这一特点。
背景与挑战
背景概述
biglab/webui-350k数据集是在WebUI项目研究背景下构建的,旨在为用户界面(UI)模型的研究提供支持。该数据集的创建伴随着WebUI项目的研究,其成果已在学术文献中被引用,体现了其在用户界面研究领域的重要性。该数据集的构建由biglab团队负责,具体创建时间未在README中明确提及,但可推断其与WebUI项目的发表时间相关联。该数据集的发布,为相关领域的研究者提供了丰富的实验素材,对于推动用户界面模型的研究与发展具有重要的参考价值。
当前挑战
数据集构建过程中,研究者面临了多方面的挑战。首先,数据采集过程中因爬虫设置了超时限制,导致部分样本文件数量不统一,这对数据集的完整性和一致性构成了挑战。其次,为了遵守版权法规,数据集在发布前进行了显性词汇的过滤,导致样本数量少于原始实验所用数据。此外,尽管原始数据集目前仍可通过网络获取,但其未来可能被移除,这对数据集的持续可用性提出了挑战。这些因素均对数据集的应用与研究带来了一定的限制。
常用场景
经典使用场景
在界面模型研究领域,biglab/webui-350k数据集被广泛用于训练与评估界面模型。其经典的使用场景在于,研究者通过该数据集提供的350,000个Web用户界面截图及其对应的描述,进行界面模型的构建和优化,旨在提高模型对复杂界面结构的理解和生成能力。
解决学术问题
该数据集解决了界面模型研究中样本多样性不足和模型泛化能力差的问题。通过引入大量真实的Web界面截图,biglab/webui-350k数据集为研究者提供了丰富的学习材料,有助于模型学习到更加广泛和细致的界面特征,从而提升模型在实际应用中的表现。
实际应用
在实际应用中,biglab/webui-350k数据集的应用场景广泛,包括但不限于界面自动生成、界面风格迁移、以及界面缺陷检测等。该数据集的支持使得相关技术能够更加精准地模拟和优化用户界面,进而提升用户的使用体验和满意度。
数据集最近研究
最新研究方向
在界面模型研究领域,biglab/webui-350k数据集的发布,为学者们提供了一个丰富的资源,以探索和深化界面设计模型的理解。该数据集伴随着WebUI项目,旨在通过大规模的界面快照,促进界面模型的学习和生成。近期的研究方向集中于如何利用该数据集提升界面自动生成系统的准确性和多样性,以及如何通过深度学习技术,从数据中提取出界面设计的高层次特征。这一研究方向的进展,对于提高用户界面设计的自动化水平,以及加强用户体验的个性化定制具有重要的实际意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作