Web-based Visual Corpus

github2023-10-24 更新2024-05-31 收录

下载链接：

https://github.com/clovaai/webvicob

下载链接

链接失效反馈

官方服务：

资源简介：

Web-based Visual Corpus是一个可以从Wikipedia HTML dump中构建的大规模视觉语料库，包含图像和文本注释，用于构建视觉文档理解（VDU）的骨干。

The Web-based Visual Corpus is a large-scale visual corpus that can be constructed from Wikipedia HTML dumps, containing images and textual annotations, used to build the backbone of Visual Document Understanding (VDU).

创建时间：

2022-10-31

原始信息汇总

数据集概述

WEBVICOB 🕸，即Web-based Visual Corpus Builder，是一个数据集生成器，能够从原始的Wikipedia HTML转储中直接构建大规模的视觉语料库（即带有文本注释的图像）。构建的视觉语料库可用于构建视觉文档理解（VDU）的骨干。

数据集构建

数据来源：原始的Wikipedia HTML转储。
数据处理：通过WEBVICOB工具，将HTML内容转换为带有文本注释的图像。
数据应用：用于视觉文档理解（VDU）的研究和开发。

数据集使用

环境要求：Python版本需大于等于3.8。
安装依赖：需安装特定的Python包和Chrome驱动。
运行命令：使用提供的脚本进行数据集的生成和可视化。

数据集准备

样本文件：提供了样本ndjson文件，每个文件包含100个样本。
完整数据下载：可通过指定链接下载完整的ndjson文件，并解压到指定目录。

数据集可视化

可视化示例：提供了字符、单词、行、段落和图像的视觉化示例。

引用信息

若使用此数据集，请引用以下文献：

@InProceedings{kim2023web, title = {On Web-based Visual Corpus Construction for Visual Document Understanding}, author = {Kim, Donghyun and Hong, Teakgyu and Yim, Moonbin and Kim, Yoonsik and Kim, Geewook}, booktitle = {Document Analysis and Recognition - ICDAR 2023}, year = {2023}, }

搜集汇总

数据集介绍

构建方式

WEBVICOB数据集通过从原始的Wikipedia HTML转储中提取信息，构建了一个大规模的视觉语料库。该数据集生成器利用HTML页面中的文本和图像信息，结合Google Fonts提供的字体资源，生成带有文本注释的图像数据。通过多进程处理和HTML分块技术，WEBVICOB能够高效地处理大量数据，并生成适用于视觉文档理解（VDU）任务的训练和测试样本。

特点

WEBVICOB数据集的特点在于其多样性和灵活性。数据集不仅包含丰富的文本和图像信息，还支持多种语言的生成，用户可以根据需求选择目标语言。此外，数据集提供了详细的注释信息，包括字符、单词、行和段落级别的标注，便于进行多层次的视觉文档分析。数据集还支持自定义渲染参数，如浏览器窗口大小、字体样式等，以适应不同的研究需求。

使用方法

使用WEBVICOB数据集时，首先需要配置Python环境并安装相关依赖。用户可以通过命令行工具运行数据集生成脚本，指定目标语言、样本数量、浏览器驱动路径等参数。数据集生成过程中，用户可以选择启用调试模式以可视化输出结果。生成的数据集以LMDB格式保存，便于后续的机器学习任务。用户还可以通过调整渲染参数和分块策略，优化数据生成过程，以满足特定任务的需求。

背景与挑战

背景概述

WEBVICOB（Web-based Visual Corpus Builder）是一个基于网络的视觉语料库构建工具，旨在从原始的维基百科HTML转储中构建大规模视觉语料库（即带有文本注释的图像）。该数据集由Donghyun Kim、Teakgyu Hong、Moonbin Yim、Yoonsik Kim和Geewook Kim等研究人员于2022年首次发布，并在2023年的ICDAR会议上正式发表。WEBVICOB的核心研究问题是通过自动化工具生成高质量的视觉语料库，以支持视觉文档理解（VDU）模型的训练与评估。该数据集的构建方法不仅提高了数据生成的效率，还为视觉文档理解领域的研究提供了重要的数据支持，推动了该领域的技术进步。

当前挑战

WEBVICOB在构建过程中面临多重挑战。首先，从维基百科的HTML转储中提取并生成高质量的视觉语料库需要处理复杂的HTML结构，确保文本与图像的精确对齐。其次，数据生成过程中需解决内存泄漏问题，并优化渲染效率以应对大规模数据处理的需求。此外，由于维基百科内容的多样性和复杂性，如何确保生成的语料库具有足够的多样性和代表性也是一个重要挑战。最后，数据集的构建还需考虑跨语言支持，以适应不同语言的视觉文档理解任务。这些挑战不仅体现在技术实现上，也对数据集的实用性和泛化能力提出了更高的要求。

常用场景

经典使用场景

WEBVICOB数据集在视觉文档理解（VDU）领域具有广泛的应用，尤其是在构建大规模视觉语料库方面。通过从原始的Wikipedia HTML转储中提取图像和文本注释，该数据集能够为VDU模型的训练提供丰富的多模态数据。研究人员可以利用这些数据来训练和评估文档理解模型，特别是在处理复杂文档布局和文本-图像关系时，WEBVICOB提供了高质量的标注数据。

实际应用

在实际应用中，WEBVICOB数据集可以用于开发智能文档处理系统，如自动化的文档分类、信息提取和内容生成。例如，在金融、法律和医疗等领域，文档通常包含大量的图像和文本信息，WEBVICOB提供的多模态数据可以帮助构建更智能的文档分析工具，提升信息处理的效率和准确性。此外，该数据集还可用于教育领域，帮助开发基于文档的智能教学系统。

衍生相关工作

WEBVICOB数据集自发布以来，已经衍生出多项相关研究工作。例如，基于该数据集的研究提出了新的视觉文档理解模型，这些模型在处理复杂文档布局和文本-图像关系时表现出色。此外，一些研究还利用WEBVICOB的数据开发了新的多模态预训练方法，进一步提升了VDU模型的性能。这些工作不仅验证了WEBVICOB数据集的有效性，还为视觉文档理解领域的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集