five

arxiver

收藏
github2024-11-02 更新2024-11-03 收录
下载链接:
https://github.com/neuralwork/arxiver
下载链接
链接失效反馈
官方服务:
资源简介:
arxiver数据集是一个用于下载和转换arXiv论文到多markdown格式的工具包,包含神经OCR处理、后处理工具以及数据集的组织结构。

The arxiver dataset is a toolkit for downloading and converting arXiv papers into multiple Markdown formats, which includes neural OCR processing, post-processing tools, and the organizational structure of the dataset.
创建时间:
2024-11-02
原始信息汇总

Arxiver 数据集概述

数据集结构

  • 下载工具: arxiv-tools/ 包含下载 arXiv 论文的脚本。
  • 实用工具: utils/ 包含检查处理数据、获取文章元数据等的实用文件。
  • 批处理脚本: run_nougat.py 用于批量处理 PDF 文件,提取文本为 .mmd 格式。
  • 进度监控: job_status_server.py 提供一个 Web 界面来监控处理进度。
  • 后处理脚本: postprocess.py 用于清理和合并 Nougat 输出的后处理脚本。

数据下载

  • 下载结构: 下载和提取数据集后,创建按出版年份和月份组织的层次文件夹结构。

    output_dir/ 2310/ # 2023年10月 paper1.pdf paper2.pdf 2311/ # 2023年11月 paper3.pdf paper4.pdf

Nougat 处理

  • 批处理: run_nougat.py 使用 Nougat 神经 OCR 模型批量处理 PDF 文件。 bash python run_nougat.py --input_dir /path/to/datadir --output_dir /path/to/output --gpu_id 0 --batch_size 8

  • 输出结构: 输出文件夹保持相同的年-月子目录结构,但每个页面单独保存。

    output_dir/ 2310/ paper1_1.mmd # 论文1,第1页 paper1_2.mmd # 论文1,第2页 paper2_1.mmd 2311/ paper3_1.mmd paper3_2.mmd paper4_1.mmd

进度监控

  • Web 界面: job_status_server.py 提供一个 Web 界面来监控处理进度。 bash python job_status_server.py --input_dir /path/to/pdf/files --output_dir /path/to/output --port 8005

后处理

  • 完整性检查: 可选地检查有多少论文已完全处理(所有页面成功提取)。 bash cd utils python check_complete_results.py --pdf-dir /path/to/pdf/root/dir --mmd-dir /path/to/mmd/root/dir

  • 合并处理: 可选地运行后处理脚本以合并多个页面的 MMD 文件。 bash cd .. python postprocess.py --input-dir /path/to/processed-data --output-dir /path/to/output

元数据提取

  • 提取元数据: 可选地提取文章元数据。 bash cd utils python extract_metadata.py --input-dir /path/to/merged-mmd-folder
搜集汇总
数据集介绍
main_image_url
构建方式
在构建arxiver数据集的过程中,首先通过arxiv-tools工具从arXiv平台下载学术论文,并按照出版年月组织成层次化的文件夹结构。随后,利用Nougat神经OCR模型对这些PDF文件进行批量处理,将文本提取为多标记格式(.mmd)。处理后的数据通过postprocess.py脚本进行后处理,包括清理和合并提取的数据,确保数据的完整性和一致性。此外,job_status_server.py脚本提供了监控处理进度的网页接口,增强了数据处理的透明度和可控性。
特点
arxiver数据集的显著特点在于其高度结构化的数据组织方式,按照出版年月进行层次化存储,便于按时间序列分析学术发展趋势。此外,数据集整合了Nougat神经OCR技术,能够高效提取包含LaTeX公式的复杂文本,确保了文本提取的准确性和完整性。后处理工具的引入进一步提升了数据的质量,使得数据集不仅适用于文本分析,还能支持更深层次的学术研究。
使用方法
使用arxiver数据集时,用户可以通过run_nougat.py脚本对PDF文件进行批量处理,生成.mmd格式的文本文件。处理后的数据可以进一步通过postprocess.py脚本进行清理和合并,生成单一文档。此外,用户可以利用check_complete_results.py脚本检查数据处理的完整性,并通过extract_metadata.py脚本提取文章的元数据。这些工具的使用,使得数据集的应用不仅限于文本分析,还能支持更广泛的学术研究需求。
背景与挑战
背景概述
arxiver数据集是由neuralwork团队开发的一个工具包,旨在从arXiv上下载并转换论文为多标记语言(.mmd)格式。该数据集的核心研究问题是如何高效地从PDF文件中提取文本和LaTeX公式,并通过神经光学字符识别(Nougat)进行后处理。arxiver的创建时间可追溯至2023年,其主要研究人员和机构为neuralwork,该数据集对学术文献的自动化处理和分析领域具有显著影响力。通过提供一个全面的工具链,arxiver不仅简化了文献数据的获取和处理流程,还为后续的文本分析和知识挖掘提供了坚实的基础。
当前挑战
arxiver数据集在构建过程中面临多项挑战。首先,从arXiv下载和处理大量学术论文需要高效的网络和计算资源,特别是在处理PDF文件时,如何确保Nougat模型的高效和稳定运行是一个关键问题。其次,提取的文本和公式需要经过复杂的后期处理,以确保数据的准确性和一致性。此外,由于arXiv论文的多样性和复杂性,如何有效地处理不同格式和结构的文档,以及如何合并和清理提取的数据,都是arxiver需要解决的重要挑战。最后,确保数据集的更新和维护,以适应arXiv的不断变化,也是一项持续的挑战。
常用场景
经典使用场景
在学术研究领域,arxiver数据集的经典使用场景主要体现在其对arXiv论文的高效处理与转换。通过Nougat神经OCR技术,该数据集能够将PDF格式的arXiv论文批量转换为多标记语言(.mmd)格式,同时保留LaTeX公式等复杂结构。这一过程不仅提升了文本提取的准确性,还为后续的文本分析和处理提供了便利。
衍生相关工作
arxiver数据集的推出,催生了多项相关研究与应用。例如,基于该数据集的文本分析工具,能够自动提取和分析学术论文中的关键信息,为文献综述和研究趋势分析提供了新的方法。此外,arxiver还激发了关于神经OCR技术在复杂文档处理中的应用研究,推动了OCR技术在学术领域的进一步发展。
数据集最近研究
最新研究方向
在学术文献处理领域,arxiver数据集的最新研究方向主要集中在利用神经光学字符识别(OCR)技术,特别是Nougat模型,来高效地从arXiv论文中提取和转换文本信息。这一研究方向不仅提升了文本提取的准确性和效率,还通过后处理工具进一步优化了提取数据的结构和质量。此外,该数据集的开发还涉及实时进度监控和元数据提取,这些功能在学术研究和数据分析中具有重要意义,为研究人员提供了更为便捷和高效的文献处理工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作