dataset-popular

github2023-07-04 更新2024-05-31 收录

下载链接：

https://github.com/rkrzr/dataset-popular

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从dir.yahoo.com获取的流行页面，这些页面经过手动标记了语义块。数据集包括页面的原始版本、DOM渲染后的版本以及带有手动标记的语义块的版本。

This dataset comprises popular pages sourced from dir.yahoo.com, which have been manually annotated with semantic blocks. The dataset includes the original versions of the pages, the versions rendered by the DOM, and the versions with manually annotated semantic blocks.

创建时间：

2013-06-15

原始信息汇总

数据集概述

数据集来源

数据集包含的网页来自dir.yahoo.com。

数据集内容

数据集包含的网页及其所有静态资源（如图片、CSS文件和JavaScript文件），以确保离线渲染与在线显示一致。
每个网页有三种版本：
- 原始HTML文件（通过单个GET请求获取）。
- 加载所有外部资源后的DOM序列化版本。
- 包含手动标记的语义块的DOM版本。

文件结构

每个网页对应四个文件：
- index.html.orig：未经修改的原始文件。
- index.html：链接已修改为绝对路径并重写以匹配本地文件结构的原始文件。
- index.dom.html：DOM渲染后的HTML文件，链接已重写。
- index.blocks.html：包含手动标记的语义块的DOM版本，使用data-block和data-block-type属性标记。

使用方法

文件mapping.txt提供原始URL到本地文件路径的映射。

许可证

数据集处于公共领域，鼓励引用。

搜集汇总

数据集介绍

构建方式

该数据集构建于硕士论文研究过程中，旨在为语义网页分割算法的定量比较提供基础数据。数据来源于[dir.yahoo.com](http://dir.yahoo.com)的热门网页，通过`wget`工具下载，并保留了所有静态资源，如图片、CSS文件和JavaScript文件，以确保离线渲染时与在线展示效果一致。每个网页提供三个版本：原始HTML文件、加载所有外部资源后的DOM序列化版本，以及由志愿者手动标记语义块的版本。

特点

该数据集的特点在于其全面性和多样性。它不仅包含了网页的原始HTML文件，还提供了DOM渲染后的版本，以及手动标记的语义块版本。这些语义块通过HTML属性`data-block`和`data-block-type`进行标识，便于研究人员进行语义分析和算法验证。此外，数据集中的所有链接均已重写，指向本地资源，确保了离线使用的便捷性。

使用方法

使用该数据集时，可通过`mapping.txt`文件获取原始URL与本地文件路径的映射关系。每个网页目录下包含四个文件：`index.html.orig`为原始HTML文件，`index.html`为链接重写后的文件，`index.dom.html`为DOM渲染后的文件，`index.blocks.html`为包含手动标记语义块的文件。研究人员可根据需求选择不同版本进行实验，并通过`data-block`和`data-block-type`属性提取语义信息。

背景与挑战

背景概述

dataset-popular数据集诞生于网页语义分割算法的定量比较研究，作为一项硕士论文的核心组成部分，旨在探索网页内容的结构化表示。该数据集由乌得勒支大学的研究人员在2009年创建，主要基于Yahoo目录中的热门网页，通过wget工具下载并保留了所有静态资源，如CSS、JavaScript和图像文件，以确保离线渲染的准确性。数据集不仅提供了原始HTML文件，还包含了DOM渲染后的版本以及手动标记的语义块版本，为网页分割算法的研究提供了丰富的实验材料。该数据集在网页语义分析领域具有重要影响力，为后续的网页结构理解与信息提取研究奠定了坚实基础。

当前挑战

dataset-popular数据集在构建与应用过程中面临多重挑战。首先，网页语义分割本身是一个复杂的问题，如何准确识别并标记网页中的语义块，尤其是面对动态加载内容和复杂的布局结构时，算法的鲁棒性和准确性成为关键挑战。其次，数据集的构建依赖于人工标记，尽管志愿者参与了语义块的标注工作，但不同标注者之间的主观差异可能导致数据一致性不足，影响模型的训练效果。此外，数据集的规模相对有限，仅包含Yahoo目录中的部分网页，可能无法全面反映互联网网页的多样性，限制了其在更广泛场景中的应用。这些挑战为未来的研究提供了改进方向，例如引入自动化标注工具或扩展数据集的覆盖范围。

常用场景

经典使用场景

在网页语义分割算法的研究中，dataset-popular数据集被广泛用于评估和比较不同算法的性能。通过提供包含手动标记语义块的网页版本，研究者可以精确地分析算法在识别和分割网页内容时的准确性和效率。

实际应用

在实际应用中，dataset-popular数据集可以用于开发更智能的网页内容提取工具，这些工具能够自动识别和提取网页中的关键信息，如新闻标题、文章正文、广告等。这对于搜索引擎优化、内容推荐系统和信息检索系统具有重要意义。

衍生相关工作

基于dataset-popular数据集，许多经典的研究工作得以展开。例如，研究者开发了多种基于机器学习的网页分割算法，这些算法在数据集上进行了广泛的测试和优化。此外，该数据集还被用于研究网页内容的结构化表示，为语义网的发展提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集