arxiver
收藏Arxiver 数据集概述
数据集结构
- 下载工具:
arxiv-tools/包含下载 arXiv 论文的脚本。 - 实用工具:
utils/包含检查处理数据、获取文章元数据等的实用文件。 - 批处理脚本:
run_nougat.py用于批量处理 PDF 文件,提取文本为 .mmd 格式。 - 进度监控:
job_status_server.py提供一个 Web 界面来监控处理进度。 - 后处理脚本:
postprocess.py用于清理和合并 Nougat 输出的后处理脚本。
数据下载
-
下载结构: 下载和提取数据集后,创建按出版年份和月份组织的层次文件夹结构。
output_dir/ 2310/ # 2023年10月 paper1.pdf paper2.pdf 2311/ # 2023年11月 paper3.pdf paper4.pdf
Nougat 处理
-
批处理:
run_nougat.py使用 Nougat 神经 OCR 模型批量处理 PDF 文件。 bash python run_nougat.py --input_dir /path/to/datadir --output_dir /path/to/output --gpu_id 0 --batch_size 8 -
输出结构: 输出文件夹保持相同的年-月子目录结构,但每个页面单独保存。
output_dir/ 2310/ paper1_1.mmd # 论文1,第1页 paper1_2.mmd # 论文1,第2页 paper2_1.mmd 2311/ paper3_1.mmd paper3_2.mmd paper4_1.mmd
进度监控
- Web 界面:
job_status_server.py提供一个 Web 界面来监控处理进度。 bash python job_status_server.py --input_dir /path/to/pdf/files --output_dir /path/to/output --port 8005
后处理
-
完整性检查: 可选地检查有多少论文已完全处理(所有页面成功提取)。 bash cd utils python check_complete_results.py --pdf-dir /path/to/pdf/root/dir --mmd-dir /path/to/mmd/root/dir
-
合并处理: 可选地运行后处理脚本以合并多个页面的 MMD 文件。 bash cd .. python postprocess.py --input-dir /path/to/processed-data --output-dir /path/to/output
元数据提取
- 提取元数据: 可选地提取文章元数据。 bash cd utils python extract_metadata.py --input-dir /path/to/merged-mmd-folder




