arXiv-URLs
收藏arXiv2025-09-05 更新2025-09-09 收录
下载链接:
https://github.com/lamps-lab/arxiv-urls
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为arXiv-URLs,包含从arXiv上选取的10篇研究论文,旨在研究不同文件格式对URL提取的影响。数据集包括了PDF、文本、LaTeX和HTML格式的论文,并使用GROBID工具将PDF转换为XML格式。数据集可用于评估不同格式的URL提取性能,并为开放科学中的URL提取提供参考。
The dataset, named arXiv-URLs, consists of 10 research papers selected from arXiv, and is designed to investigate the impact of different file formats on URL extraction. The dataset includes papers in PDF, plain text, LaTeX, and HTML formats, with the PDF files converted to XML format using the GROBID tool. This dataset can be employed to evaluate the performance of URL extraction across various file formats, and provide reliable references for URL extraction work in open science.
提供机构:
弗吉尼亚理工大学
创建时间:
2025-09-05
原始信息汇总
数据集概述
数据集名称
URL Extraction Performance Across arXiv File Formats
数据集描述
该数据集支持对开放获取学术文档中URL提取的纵向和格式分析,包含arXiv研究论文的多格式表示中提取和评估URL的研究相关数据、代码和结果。
数据内容
- 多格式arXiv论文全文文件(PDF、LaTeX、HTML、XML和纯文本)
- 有效URL和OADS相关URL的真实标注
- 提取、评估和可视化URL提取性能的脚本和Jupyter笔记本
数据结构
数据目录
data/html/:使用LaTeXML转换的HTML文件data/latex/:LaTeX源文件data/pdf/:原始PDF文件data/text/:通过PyMuPDF转换的纯文本文件data/xml/:使用GROBID转换的XML文件
结果文件
results/extracted_urls_1000_per_year.jsonresults/extracted_urls_1000_per_year_10_samples_all_12_folders.jsonresults/html_urls.jsonresults/latex_urls.jsonresults/text_urls.jsonresults/xml_urls.jsonarxiv_extracted_urls_comparison.xlsx:格式覆盖率和有效URL提取摘要
关键脚本
scripts/pdf_to_text_converter_arxiv.py:使用PyMuPDF将PDF转换为纯文本scripts/convert_pdf_using_grobid.py:使用GROBID从PDF提取XMLscripts/convert_latex_to_html.sh:使用LaTeXML将LaTeX源转换为HTML
使用工具
- Python 3.10.16
- LaTeXML 0.8.8
- GROBID 0.8.1
- PyMuPDF 1.24.13
重现步骤
- 克隆存储库:
git clone https://github.com/lamps-lab/arxiv-urls.git - 安装要求:
pip install PyMuPDF==1.24.13 lxml pylatexenc - 运行Jupyter笔记本:
arxiv_file_formats.ipynb
维护信息
- 维护者:Rochana R. Obadage
- 最后更新日期:2025年7月6日
搜集汇总
数据集介绍

构建方式
在开放科学资源日益重要的背景下,arXiv-URLs数据集通过分层随机抽样方法从arXiv平台选取了1991年至2024年间的1,161篇论文,涵盖PDF、文本、LaTeX、HTML和XML五种格式。采用PyMuPDF从PDF提取文本,LaTeXML转换LaTeX至HTML,GROBID生成XML格式,最终筛选出10篇包含全部格式的论文作为核心样本,构建了多格式URL提取的评估基准。
特点
该数据集突出体现了多格式协同的优势,其中HTML格式在URL提取中表现最优(F1值0.65),XML格式精度达1.00但召回率较低。组合格式如LaTeX+HTML+XML可将F1值提升至0.71,显著增强了对开放获取数据与软件(OADS)类URL的覆盖能力。数据集还揭示了1992至2024年间arXiv论文URL使用量的持续增长趋势,反映了学术交流中对数字资源依赖的深化。
使用方法
研究者可借助该数据集评估不同文件格式下的URL提取算法性能,尤其适用于开发多格式融合的提取模型。通过正则表达式、语义标签解析(如HTML的<a>标签)及启发式规则,可对比单一格式与组合格式的召回率与精度。数据集还可支持学术资源可持续性研究,例如分析URL消亡趋势或验证开放科学资源的长期可访问性。
背景与挑战
背景概述
arXiv-URLs数据集由Old Dominion University、Virginia Tech及Internet Archive的研究团队于2025年创建,聚焦于开放科学背景下学术文献中URL提取的鲁棒性研究。该数据集基于arXiv平台超过230万篇开放获取论文,通过多格式(PDF、Text、LaTeX、HTML、XML)样本构建,旨在解决学术资源链接衰减对研究可复现性的影响。其核心研究问题在于探索不同文件格式对URL提取准确性与完整性的影响,为数字资源长期保存和学术链接分析提供关键数据支撑,推动了学术信息抽取与开放科学基础设施的交叉研究。
当前挑战
该数据集解决的领域挑战包括:学术PDF中URL因文本流断裂、注释层忽略及定位困难导致的提取不完整;多格式协同提取中需平衡覆盖率与精确度,尤其面对开放获取数据集与软件(OADS)链接的特殊性。构建过程中的挑战涉及:arXiv原始数据异构性(如HTML格式稀缺)、LaTeX到HTML转换的工具局限性(仅28%转换成功率),以及人工标注ground truth时需处理跨格式URL去重与验证的复杂性。
常用场景
经典使用场景
在数字图书馆与开放科学领域,arXiv-URLs数据集被广泛应用于评估多格式文档中URL提取的鲁棒性。该数据集通过整合PDF、Text、LaTeX、HTML和XML五种格式的学术论文,为研究者提供了跨格式URL提取性能比较的基础。其经典使用场景包括开发自动化URL提取工具、优化正则表达式匹配算法,以及分析不同格式对URL完整性和准确性的影响,尤其适用于需要高召回率的学术资源保存任务。
实际应用
在实际应用中,arXiv-URLs数据集被集成到大规模学术资源管理系统中,用于自动化抓取和归档论文引用的网络资源。互联网档案馆(Internet Archive)等机构利用其多格式提取策略,增强了对GitHub、数据集托管平台等关键资源的捕获能力。此外,该数据集支持学术出版平台优化HTML转换流程,减少URL丢失,并为期刊编辑部开发链接有效性监测工具提供基准数据。
衍生相关工作
该数据集衍生出多项经典研究,包括基于多格式融合的URL提取框架(如结合GROBID与LaTeXML的工具链)、面向OADS链接的分类器开发,以及跨学科链接衰变趋势分析。例如,Escamilla等人(2023)利用类似方法构建了混合分类器识别多平台软件资源;S2ORC和Semantic Scholar等项目则借鉴其格式比较结论,优化了大规模学术语料库的链接提取流程,进一步推动了学术资源可持续访问技术的研究。
以上内容由遇见数据集搜集并总结生成



