Acutis Document Analysis Dataset

github2025-01-02 更新2025-01-10 收录

下载链接：

https://github.com/eaucoin/acutis_data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用Acutis文档分析系统创建的大型文档分析数据集。Acutis系统结合了Surya模型、boomb0om的CRAFT实现和dimdenGD的Google Lens OCR技术。数据集的内容来源于Archive.org的文本类型文档，通过高级搜索和筛选特定语言（如手写英语）的文档来获取数据。

This is a large-scale document analysis dataset created using the Acutis document analysis system. The Acutis system integrates the Surya model, boomb0om's CRAFT implementation, and dimdenGD's Google Lens OCR technology. The dataset content is sourced from text-type documents on Archive.org, with data collected through advanced search and filtering for documents in specific languages such as handwritten English.

创建时间：

2024-12-18

原始信息汇总

数据集概述

数据集来源

数据集通过Acutis文档分析系统生成，该系统结合了Surya模型、boomb0om的CRAFT实现以及dimdenGD的Google Lens OCR技术。
文档来源于Archive.org的“texts”媒体类型，通过高级搜索功能筛选出特定语言（如手写英语）的文档。

数据集生成流程

文档筛选：通过Archive.org的高级搜索功能，筛选出符合条件的文档标识符，并保存为identifiers.txt文件。
环境配置：需要Linux系统、conda环境和CUDA>=12.1支持。通过克隆仓库、安装Node包、创建conda环境并安装Python依赖项来配置环境。
数据集生成：运行start.py脚本，指定输入目录和分块大小，生成数据集。脚本会处理每个文档标识符，生成对应的HTML和布局信息文件。

数据集结构

数据集目录结构如下：

INPUT_DIR/ └──dashboard.txt └── identifier_1/ └── document_name_1/ ├── 1.html ├── 1.boxes ├── 2.html ├── 2.boxes └── ... └── document_name_2/ ├── 1.html ├── 1.boxes ├── 2.html ├── 2.boxes └── ... ...
每个文档文件夹包含多个页面文件，每个页面文件包含.html和.boxes文件，分别存储页面内容和布局信息。

布局信息

.boxes文件包含页面布局元素的描述，格式为：

[x1, y1, x2, y2, label, box_id, position]
- x1, y1, x2, y2：布局元素的归一化坐标。
- label：布局元素的标签，如Caption、Footnote等。
- box_id：布局元素的唯一标识符。
- position：布局元素在页面中的阅读顺序。

数据处理

HTML转Markdown：通过运行markdown.py脚本，将HTML文件转换为Markdown格式。
数据压缩：通过运行compress_directory.sh脚本，压缩已完成处理的文件夹以节省磁盘空间。

进度跟踪

脚本运行时生成dashboard.txt文件，记录处理进度，包括已处理的标识符数量、文档数量、页面数量等。

注意事项

数据集生成过程中，脚本会自动跳过无效的文档标识符，并记录已处理的标识符。
数据集生成过程中，可以根据VRAM资源调整DETECTOR_BATCH_SIZE和ORDER_BATCH_SIZE参数。

搜集汇总

数据集介绍

构建方式

Acutis Document Analysis Dataset的构建过程基于Archive.org平台上的文本资源，通过高级搜索功能筛选出符合特定条件的文档标识符。这些标识符随后被用于自动化脚本，结合Surya模型、CRAFT文本检测和Google Lens OCR技术，对文档进行深度分析。数据集构建的关键步骤包括从Archive.org获取文档标识符、使用自动化脚本处理文档并提取布局信息和内容，最终生成包含.html和.boxes文件的文档分析数据集。

特点

该数据集的特点在于其广泛覆盖了多种文档类型，尤其是手写英文文档。每个文档的页面布局信息通过标准化的坐标系统进行描述，确保了数据的可扩展性和一致性。此外，数据集中的每个布局元素都附带了详细的标签信息，如标题、脚注、公式等，这为文档结构分析和内容提取提供了丰富的上下文信息。数据集的生成过程还支持动态调整处理批次大小，以适应不同的硬件资源。

使用方法

使用Acutis Document Analysis Dataset时，用户需首先克隆项目仓库并配置所需的运行环境，包括安装Node.js包和Python依赖项。通过运行`start.py`脚本，用户可以指定输入目录和处理块大小，启动数据集生成过程。脚本会自动处理文档并生成包含布局信息和内容的文件。此外，用户还可以通过`markdown.py`脚本将提取的HTML内容转换为Markdown格式，以便于进一步分析和使用。数据集生成过程中，用户可通过`dashboard.txt`文件实时监控处理进度，并通过`compress_directory.sh`脚本压缩已完成处理的文件夹以节省存储空间。

背景与挑战

背景概述

Acutis Document Analysis Dataset 是一个专注于文档分析的复杂数据集，由多个先进模型组合而成，包括Surya模型、CRAFT文本检测模型以及Google Lens OCR技术。该数据集的创建旨在解决文档结构识别与内容提取的难题，特别是在处理手写英文文档时。数据集的核心研究问题在于如何高效地从海量文档中提取结构化信息，并生成可用于机器学习的标注数据。通过结合Archive.org的文本资源，该数据集不仅为文档分析领域提供了丰富的数据支持，还推动了相关技术在自然语言处理、计算机视觉等领域的应用。

当前挑战

Acutis Document Analysis Dataset 在构建过程中面临多重挑战。首先，文档的多样性和复杂性使得自动化的结构识别与内容提取变得极为困难，尤其是手写文档的识别精度问题。其次，数据集的构建依赖于大规模文档的筛选与处理，如何从Archive.org的数百万文本资源中高效提取符合条件的文档，并确保数据的质量与一致性，是一个巨大的技术挑战。此外，数据集的生成过程对计算资源的要求极高，尤其是在处理大规模文档时，如何优化计算效率与内存使用，成为了构建过程中的关键问题。最后，数据集的标注与格式转换也面临挑战，如何确保生成的HTML与Markdown文件能够准确反映文档的原始结构与内容，是数据集质量的重要保障。

常用场景

经典使用场景

Acutis Document Analysis Dataset 在文档分析与处理领域具有广泛的应用，尤其是在处理手写英文文档时表现出色。该数据集通过结合Surya模型、CRAFT文本检测和Google Lens OCR技术，能够高效地提取和分析文档中的布局信息。其经典使用场景包括文档的自动分类、内容提取以及布局分析，特别适用于处理大量历史文档或手写文本的数字化工作。

实际应用

在实际应用中，Acutis Document Analysis Dataset 被广泛用于图书馆、档案馆等机构的文档数字化项目。通过该数据集，机构能够快速将大量历史文档转换为可搜索的电子格式，提升文档的可用性和可访问性。此外，该数据集还支持法律、医疗等领域的文档自动化处理，例如合同分析、病历提取等，显著提高了工作效率。

衍生相关工作

基于 Acutis Document Analysis Dataset，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了更高效的文档布局分析算法，提升了复杂文档的识别精度。此外，该数据集还催生了多个基于深度学习的文档理解模型，如文档分类、手写文本识别等。这些工作不仅推动了文档分析技术的发展，还为相关领域的应用提供了强有力的支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集