gbenson/interesting-dom-snapshots
收藏Hugging Face2024-06-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/gbenson/interesting-dom-snapshots
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从[gbenson/webui-dom-snapshots](https://huggingface.co/datasets/gbenson/webui-dom-snapshots)中提取的小型数据集,主要用于开发一个DOM感知的HTML分词器。数据集包含图像、请求的URL、显示的URL、帧数、DOM快照等多个特征。数据集的语言主要为英语,但也包含一些中文、荷兰语、捷克语和韩语。数据集的许可证为CC0 1.0 Universal。
这是一个从[gbenson/webui-dom-snapshots](https://huggingface.co/datasets/gbenson/webui-dom-snapshots)中提取的小型数据集,主要用于开发一个DOM感知的HTML分词器。数据集包含图像、请求的URL、显示的URL、帧数、DOM快照等多个特征。数据集的语言主要为英语,但也包含一些中文、荷兰语、捷克语和韩语。数据集的许可证为CC0 1.0 Universal。
提供机构:
gbenson
原始信息汇总
数据集概述
数据集信息
- 名称: Interesting DOM snapshots
- 来源: gbenson/webui-dom-snapshots
- 许可证: CC0 1.0 Universal
数据集特征
- image: 图像数据类型
- requested_url: 字符串数据类型
- displayed_url: 字符串数据类型
- num_frames: 整数数据类型
- body_elements: 字符串序列
- dom_snapshot: 结构化数据,包含多个子特征
- documents: 列表,包含多个文档相关特征
- documentURL, title, baseURL, contentLanguage, encodingName, publicId, systemId, frameId: 整数数据类型
- nodes: 结构化数据,包含多个节点相关特征
- parentIndex, nodeType, shadowRootType, nodeName, nodeValue, backendNodeId, attributes, textValue, inputValue, inputChecked, optionSelected, contentDocumentIndex, pseudoType, pseudoIdentifier, isClickable, currentSourceURL, originURL: 整数或字符串序列
- layout: 结构化数据,包含布局相关特征
- nodeIndex, styles, bounds, text, stackingContexts, paintOrders: 整数或浮点数序列
- textBoxes: 结构化数据,包含文本框相关特征
- layoutIndex, bounds, start, length: 整数或浮点数序列
- scrollOffsetX, scrollOffsetY, contentWidth, contentHeight: 整数数据类型
- strings: 字符串序列
- documents: 列表,包含多个文档相关特征
- capture_options: 结构化数据,包含捕获选项
- computedStyles: 字符串序列
- includePaintOrder: 布尔数据类型
- source_index: 整数数据类型
- source_key_name: 字符串数据类型
- source_image_ssim: 浮点数数据类型
- detected_language: 字符串数据类型
数据集分割
- train: 295个样本,数据大小为176072783.06768078字节
数据集大小
- 下载大小: 46652388字节
- 数据集大小: 176072783.06768078字节
语言支持
- en, zh, nl, cs, ko
数据集用途
- 用于开发DOM-aware tokenizer
搜集汇总
数据集介绍

构建方式
gbenson/interesting-dom-snapshots数据集是从gbenson/webui-dom-snapshots数据集中精心挑选的一个子集,主要聚焦于边缘案例和特定场景的DOM快照。该数据集通过捕获网页的DOM结构及其相关属性,包括文档URL、标题、编码名称等,以及节点的详细信息如父节点索引、节点类型、文本值等,构建了一个多层次的DOM表示。此外,数据集还包含了网页的布局信息、文本框信息以及滚动偏移量等,以全面反映网页的视觉和结构特征。
特点
该数据集的显著特点在于其多语言覆盖和边缘案例的精选,涵盖了英语、中文、荷兰语、捷克语和韩语等多种语言,使其在多语言网页分析中具有广泛的应用潜力。此外,数据集的结构化设计使其能够详细记录网页的DOM结构和视觉布局,为DOM感知任务提供了丰富的信息资源。
使用方法
gbenson/interesting-dom-snapshots数据集适用于开发和测试DOM感知模型,特别是在HTML处理和网页结构分析领域。用户可以利用该数据集训练DOM感知分词器,如Gary Benson开发的DOM-aware tokenizer,以提高对网页DOM结构的理解和处理能力。此外,该数据集还可用于网页视觉布局分析、多语言网页内容识别等研究任务。
背景与挑战
背景概述
在网页内容分析与处理领域,gbenson/interesting-dom-snapshots数据集由Gary Benson精心策划,旨在为DOM(文档对象模型)相关的研究提供支持。该数据集是gbenson/webui-dom-snapshots的一个子集,主要包含网页的DOM快照,涵盖了多种语言,如英语、中文、荷兰语、捷克语和韩语。其核心研究问题围绕如何有效处理和分析网页的DOM结构,特别是为开发DOM感知分词器提供数据支持。该数据集的创建不仅丰富了网页内容分析的研究资源,还为相关领域的技术进步提供了重要参考。
当前挑战
gbenson/interesting-dom-snapshots数据集在构建过程中面临多项挑战。首先,DOM结构的复杂性使得数据采集和处理变得异常困难,尤其是处理多语言网页时,语言多样性增加了数据标注和处理的复杂度。其次,数据集的规模较小,主要集中于边缘案例,这可能导致模型训练时的泛化能力受限。此外,DOM快照的多样性和动态性要求数据集在更新和维护上投入大量资源,以确保数据的时效性和代表性。这些挑战共同构成了该数据集在实际应用中的主要障碍。
常用场景
经典使用场景
gbenson/interesting-dom-snapshots数据集的经典使用场景主要集中在网页分析与处理领域。该数据集通过捕获网页的DOM快照,提供了丰富的网页结构信息,包括图像、URL、帧数、DOM元素及其属性等。这些信息使得研究者能够深入分析网页的布局、内容及其交互特性,特别适用于开发DOM感知型HTML解析器或网页内容提取工具。
解决学术问题
该数据集解决了网页分析中的多个学术研究问题,如网页结构的自动化解析、网页内容的语义理解以及网页交互行为的建模。通过提供详细的DOM快照,研究者可以更精确地分析网页的复杂结构,从而推动网页解析技术的发展。此外,该数据集还为跨语言网页分析提供了基础,有助于解决多语言网页的统一处理问题。
衍生相关工作
基于gbenson/interesting-dom-snapshots数据集,研究者开发了多种DOM感知型工具和算法。例如,Gary Benson开发的DOM感知型分词器(DOM-aware tokenizer)利用该数据集进行HTML解析和内容提取。此外,该数据集还激发了关于网页结构分析和网页交互行为建模的相关研究,推动了网页分析技术在多个领域的应用和发展。
以上内容由遇见数据集搜集并总结生成



