WordScape

github2023-12-07 更新2024-05-31 收录

下载链接：

https://github.com/DS3Lab/WordScape

下载链接

链接失效反馈

官方服务：

资源简介：

WordScape是一个用于从网络爬取数据中提取多语言、视觉丰富的文档，并带有布局注释的管道。该管道能够提取网页中的Word文档，将文档页面渲染为图像，提取文本，并生成语义实体的边界框注释。

WordScape is a pipeline designed for extracting multilingual, visually rich documents with layout annotations from web-crawled data. This pipeline is capable of extracting Word documents from web pages, rendering document pages into images, extracting text, and generating bounding box annotations for semantic entities.

创建时间：

2023-11-20

原始信息汇总

数据集概述

数据集名称

WordScape

数据集功能

WordScape是一个用于从网络爬虫数据中提取多语言、视觉丰富的文档并进行布局标注的管道。该管道能够从网页中提取Word文档，将文档页面渲染为图像，提取文本，并为语义实体生成边界框标注。

数据集组成

文档URL列表：包含9.4M个URL，每个URL附带SHA256校验和，用于直接下载文档并验证其完整性。
多个Common Crawl快照：
- 2013-48: 57,150个URL
- 2016-50: 309,734个URL
- 2020-40: 959,098个URL
- 2021-43: 1,424,709个URL
- 2023-06: 3,009,335个URL
- 2023-14: 3,658,202个URL
- 全部: 9,418,228个URL

数据集处理流程

Common Crawl解析：从Common Crawl快照中提取指向Word文件的URL。
文档下载：从提取的URL下载文档，并根据多种标准（如HTTP错误、无效格式等）进行筛选。
文档标注：处理下载的Word文档，使用FastText识别语言，通过LibreOffice和PDF2Image将文档页面渲染为jpeg，生成边界框标注，并使用Python-docx和PDFPlumber提取文本。

数据集扩展与模型训练

提供工具以根据实体类别、实体数量、语言及语言和质量分数过滤原始数据集，并提供脚本用于训练YOLOv5l模型。

数据集使用

可通过Docker运行整个管道，直接处理预处理的URL列表，下载相关文档并进行标注，创建数据集。

支持平台

该管道已在MacOS和Linux Ubuntu及CentOS上成功测试。

引用信息

@inproceedings{wordscape, author={Weber, Maurice and Siebenschuh, Carlo and Butler, Rory Marshall and Alexandrov, Anton and Thanner, Valdemar Ragnar and Tsolakis, Georgios and Jabbar, Haris and Foster, Ian and Li, Bo and Stevens, Rick and Zhang, Ce}, booktitle = {Advances in Neural Information Processing Systems}, title={WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data}, year={2023} }

搜集汇总

数据集介绍

构建方式

WordScape数据集的构建过程分为三个核心步骤。首先，从Common Crawl网络语料库中提取指向Word文件的URL，并通过元数据文件筛选出以.doc或.docx结尾的HTTP链接。接着，下载这些文档，并根据HTTP错误、无效格式、潜在恶意特征和文件大小等标准进行筛选。最后，利用LibreOffice和PDF2Image工具将文档页面渲染为图像，并使用FastText进行语言识别，生成语义实体（如标题和表格）的边界框注释。整个过程确保了数据的高质量和多样性。

特点

WordScape数据集的特点在于其多语言性和视觉丰富性。该数据集不仅包含从网页中提取的Word文档，还生成了文档页面的图像、文本内容以及语义实体的边界框注释。通过FastText语言分类器，数据集支持多语言处理，并且提供了丰富的元数据信息，如HTTP状态、OLE信息和SHA-256哈希值，以确保内容的完整性和可追溯性。此外，数据集还提供了扩展工具，允许用户根据实体类别、语言和语言质量分数进行过滤，进一步提升了数据集的灵活性和实用性。

使用方法

WordScape数据集的使用方法主要通过Docker容器实现。用户可以通过提供的Dockerfile构建镜像，并在容器中运行整个数据处理流程。首先，用户需要下载URL列表并验证文档的完整性。接着，通过Docker命令运行管道，下载文档并生成注释。用户还可以通过设置参数（如最大文档数量）来控制数据处理的规模。此外，数据集还提供了扩展脚本，支持用户训练YOLOv5l模型，进一步挖掘数据集的潜力。整个过程简化了数据处理的复杂性，使得用户能够高效地利用该数据集进行研究和开发。

背景与挑战

背景概述

WordScape数据集由Maurice Weber等研究人员于2023年提出，旨在从网络爬取数据中提取多语言、视觉丰富的文档，并生成布局注释。该数据集的核心研究问题在于如何高效地从海量网络数据中提取并处理Word文档，生成包含页面图像、文本及语义实体（如标题、表格）边界框注释的多模态数据。通过利用Common Crawl网络语料库，WordScape不仅为文档分析与理解提供了丰富的资源，还推动了多语言文档处理技术的发展，对自然语言处理、计算机视觉及文档分析领域产生了深远影响。

当前挑战

WordScape数据集在构建过程中面临多重挑战。首先，从Common Crawl中提取并处理海量Word文档需要高效的URL解析与去重机制，以确保数据的多样性与完整性。其次，文档下载过程中需应对HTTP错误、无效格式、恶意文件及大文件处理等问题，这对数据质量与安全性提出了高要求。此外，文档的多语言识别、页面渲染及语义实体注释的生成依赖于复杂的工具链与算法，如FastText、LibreOffice和PDF2Image等，这对技术实现与计算资源提出了较高需求。最后，如何确保数据集的多样性与代表性，尤其是在多语言与多领域文档的覆盖上，仍是一个亟待解决的难题。

常用场景

经典使用场景

WordScape数据集在文档分析与处理领域具有广泛的应用，尤其是在多语言文档的视觉丰富性分析中。通过从网页爬取数据中提取Word文档，并将其渲染为图像，同时生成语义实体的边界框标注，该数据集为研究文档布局、文本提取和多语言处理提供了丰富的资源。其经典使用场景包括文档布局识别、多语言文本分析以及视觉文档理解等任务。

实际应用

在实际应用中，WordScape数据集为文档自动化处理系统提供了重要的数据支持。例如，在文档管理系统（DMS）中，该数据集可用于自动识别和分类文档中的语义实体，如标题、表格和图像。此外，其多语言特性使得该数据集在跨语言文档检索和翻译系统中具有广泛应用，帮助提升系统的准确性和效率。

衍生相关工作

基于WordScape数据集，研究者们已经开展了多项经典工作。例如，利用该数据集训练的YOLOv5l模型在文档布局识别任务中表现出色，显著提升了文档实体检测的精度。此外，该数据集还推动了多语言文档处理模型的发展，如基于FastText的多语言文本分类模型。这些工作不仅验证了数据集的实用性，还为文档处理领域的进一步研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集