arxiver

github2024-11-02 更新2024-11-03 收录

下载链接：

https://github.com/neuralwork/arxiver

下载链接

链接失效反馈

官方服务：

资源简介：

arxiver数据集是一个用于下载和转换arXiv论文到多markdown格式的工具包，包含神经OCR处理、后处理工具以及数据集的组织结构。

The arxiver dataset is a toolkit for downloading and converting arXiv papers into multiple Markdown formats, which includes neural OCR processing, post-processing tools, and the organizational structure of the dataset.

创建时间：

2024-11-02

原始信息汇总

Arxiver 数据集概述

数据集结构

下载工具: arxiv-tools/ 包含下载 arXiv 论文的脚本。
实用工具: utils/ 包含检查处理数据、获取文章元数据等的实用文件。
批处理脚本: run_nougat.py 用于批量处理 PDF 文件，提取文本为 .mmd 格式。
进度监控: job_status_server.py 提供一个 Web 界面来监控处理进度。
后处理脚本: postprocess.py 用于清理和合并 Nougat 输出的后处理脚本。

数据下载

下载结构: 下载和提取数据集后，创建按出版年份和月份组织的层次文件夹结构。

output_dir/ 2310/ # 2023年10月 paper1.pdf paper2.pdf 2311/ # 2023年11月 paper3.pdf paper4.pdf

Nougat 处理

批处理: run_nougat.py 使用 Nougat 神经 OCR 模型批量处理 PDF 文件。 bash python run_nougat.py --input_dir /path/to/datadir --output_dir /path/to/output --gpu_id 0 --batch_size 8
输出结构: 输出文件夹保持相同的年-月子目录结构，但每个页面单独保存。

output_dir/ 2310/ paper1_1.mmd # 论文1，第1页 paper1_2.mmd # 论文1，第2页 paper2_1.mmd 2311/ paper3_1.mmd paper3_2.mmd paper4_1.mmd

进度监控

Web 界面: job_status_server.py 提供一个 Web 界面来监控处理进度。 bash python job_status_server.py --input_dir /path/to/pdf/files --output_dir /path/to/output --port 8005

后处理

完整性检查: 可选地检查有多少论文已完全处理（所有页面成功提取）。 bash cd utils python check_complete_results.py --pdf-dir /path/to/pdf/root/dir --mmd-dir /path/to/mmd/root/dir
合并处理: 可选地运行后处理脚本以合并多个页面的 MMD 文件。 bash cd .. python postprocess.py --input-dir /path/to/processed-data --output-dir /path/to/output

元数据提取

提取元数据: 可选地提取文章元数据。 bash cd utils python extract_metadata.py --input-dir /path/to/merged-mmd-folder

搜集汇总

数据集介绍

构建方式

在构建arxiver数据集的过程中，首先通过arxiv-tools工具从arXiv平台下载学术论文，并按照出版年月组织成层次化的文件夹结构。随后，利用Nougat神经OCR模型对这些PDF文件进行批量处理，将文本提取为多标记格式（.mmd）。处理后的数据通过postprocess.py脚本进行后处理，包括清理和合并提取的数据，确保数据的完整性和一致性。此外，job_status_server.py脚本提供了监控处理进度的网页接口，增强了数据处理的透明度和可控性。

特点

arxiver数据集的显著特点在于其高度结构化的数据组织方式，按照出版年月进行层次化存储，便于按时间序列分析学术发展趋势。此外，数据集整合了Nougat神经OCR技术，能够高效提取包含LaTeX公式的复杂文本，确保了文本提取的准确性和完整性。后处理工具的引入进一步提升了数据的质量，使得数据集不仅适用于文本分析，还能支持更深层次的学术研究。

使用方法

使用arxiver数据集时，用户可以通过run_nougat.py脚本对PDF文件进行批量处理，生成.mmd格式的文本文件。处理后的数据可以进一步通过postprocess.py脚本进行清理和合并，生成单一文档。此外，用户可以利用check_complete_results.py脚本检查数据处理的完整性，并通过extract_metadata.py脚本提取文章的元数据。这些工具的使用，使得数据集的应用不仅限于文本分析，还能支持更广泛的学术研究需求。

背景与挑战

背景概述

arxiver数据集是由neuralwork团队开发的一个工具包，旨在从arXiv上下载并转换论文为多标记语言（.mmd）格式。该数据集的核心研究问题是如何高效地从PDF文件中提取文本和LaTeX公式，并通过神经光学字符识别（Nougat）进行后处理。arxiver的创建时间可追溯至2023年，其主要研究人员和机构为neuralwork，该数据集对学术文献的自动化处理和分析领域具有显著影响力。通过提供一个全面的工具链，arxiver不仅简化了文献数据的获取和处理流程，还为后续的文本分析和知识挖掘提供了坚实的基础。

当前挑战

arxiver数据集在构建过程中面临多项挑战。首先，从arXiv下载和处理大量学术论文需要高效的网络和计算资源，特别是在处理PDF文件时，如何确保Nougat模型的高效和稳定运行是一个关键问题。其次，提取的文本和公式需要经过复杂的后期处理，以确保数据的准确性和一致性。此外，由于arXiv论文的多样性和复杂性，如何有效地处理不同格式和结构的文档，以及如何合并和清理提取的数据，都是arxiver需要解决的重要挑战。最后，确保数据集的更新和维护，以适应arXiv的不断变化，也是一项持续的挑战。

常用场景

经典使用场景

在学术研究领域，arxiver数据集的经典使用场景主要体现在其对arXiv论文的高效处理与转换。通过Nougat神经OCR技术，该数据集能够将PDF格式的arXiv论文批量转换为多标记语言（.mmd）格式，同时保留LaTeX公式等复杂结构。这一过程不仅提升了文本提取的准确性，还为后续的文本分析和处理提供了便利。

衍生相关工作

arxiver数据集的推出，催生了多项相关研究与应用。例如，基于该数据集的文本分析工具，能够自动提取和分析学术论文中的关键信息，为文献综述和研究趋势分析提供了新的方法。此外，arxiver还激发了关于神经OCR技术在复杂文档处理中的应用研究，推动了OCR技术在学术领域的进一步发展。

数据集最近研究