arXiv public datasets
收藏github2019-08-08 更新2024-05-31 收录
下载链接:
https://github.com/IIT-Lab/arxiv-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从arXiv公开可用数据中生成各种公共数据集的仓库,包括文章元数据、PDF文件、纯文本、引用图和作者字符串解析等。
This repository generates various public datasets from openly available data on arXiv, including article metadata, PDF files, plain text, citation graphs, and author string parsing.
创建时间:
2019-05-03
原始信息汇总
数据集概述
数据集内容
- Article metadata:包括标题、作者字符串、分类、doi、摘要、提交者信息。
- PDFs:通过arXiv批量下载的所有PDF文件。
- Plain text:PDF文件转换成的UTF-8编码的纯文本。
- Citation graph:仅限于arXiv ID之间的内部引用图。
- Author string parsing:将元数据中的作者字符串转换为标准化的姓名和机构列表。
数据集生成
- 数据集的部分内容可以作为发布的快照在GitHub的Releases中找到。
- 其他部分需要用户本地生成。
数据集生成步骤
-
系统设置:
- 安装系统包:
python3,python3-pip,python3-virtualenv,poppler-utils。 - 下载代码并准备Python环境。
- 配置数据存储目录于
config.json。
- 安装系统包:
-
Article metadata:
- 使用
python bin/metadata.py下载并保存arXiv元数据。
- 使用
-
PDFs:
- 准备AWS凭证。
- 使用
python bin/pdfdownload.py进行PDF的批量下载。
-
Plain text:
- 使用
python bin/fulltext.py将PDF转换为纯文本。
- 使用
-
Cocitation network:
- 使用
python bin/cocitations.py生成引用网络。
- 使用
-
Author string split:
- 使用
python bin/authorsplit.py解析并保存作者字符串。
- 使用
数据集存储
- 数据集包括三个主要子目录:
$ARXIV_DATA/tarpdfs:原始PDF文件。$ARXIV_DATA/fulltext:PDF转换的纯文本。$ARXIV_DATA/output:引用网络、解析的作者字符串等。
注意事项
- PDF批量下载成本约为100美元,占用约1.1TB空间。
- 纯文本转换需要约400核心小时。
搜集汇总
数据集介绍

构建方式
arXiv public datasets 是通过对公开可获取的数据进行轻度后处理和组织构建而成的。该数据集的构建包括从 arXiv 公共数据中抓取或生成的文章元数据、PDF 文件、纯文本、引用图以及作者字符串解析等部分。
使用方法
使用该数据集首先需要在 Linux 系统上安装必要的系统包和 Python 环境。用户需配置数据存储路径,并通过执行相应的脚本生成所需的子目录。针对不同的数据组件,如文章元数据、PDF 文件、纯文本等,提供了专门的脚本进行下载、转换和解析。用户需按照指南操作,确保正确获取和使用数据集。
背景与挑战
背景概述
arXiv public datasets是一个基于公共数据生成的数据集仓库,旨在通过采集和后处理arXiv.org的公开数据,为研究人员提供丰富的信息资源。该数据集的创建始于对学术文献领域深入研究的需要,由研究人员Matt Bierbaum维护。该数据集包含了文章的元数据、PDF文档、文本格式的文档、引用关系图以及作者字符串的标准化列表。自发布以来,它在学术文献分析和挖掘领域产生了广泛影响,成为研究学术网络和文本挖掘的重要资源。
当前挑战
尽管arXiv public datasets为学术研究提供了宝贵的资源,但在使用过程中也存在一些挑战。首先,数据集的构建和更新需要处理大量数据,这对计算资源和存储提出了较高要求。其次,数据集的构建过程中涉及到PDF文本转换、作者字符串解析等技术问题,这些都可能影响数据的质量和可用性。此外,数据集的规模巨大,对引用关系的处理和存储提出了额外的挑战。在领域问题解决方面,如何准确高效地从非结构化的学术文献中提取结构化信息,仍是一个待解决的问题。
常用场景
经典使用场景
arXiv公共数据集作为一个全面收集学术文章及相关元数据的资源库,其经典使用场景在于为研究者提供便捷的文献检索、分析与挖掘工具。用户可以轻松获取文章的标题、作者、分类、摘要等信息,进而进行文献计量学分析、学术网络构建等研究。
解决学术问题
该数据集解决了学术研究中文献获取不全面、分析效率低下的问题,提供了大规模的文献数据,支持研究者进行大规模的文本挖掘、引用分析以及作者合作关系网络分析,从而深化了学术领域的定量研究,提升了学术研究的质量和效率。
实际应用
在实践应用中,arXiv公共数据集被广泛应用于学术出版、研究评估、科技情报分析等领域。它不仅为学术出版商提供了丰富的内容资源,还为科研机构提供了评价科研产出的重要依据,同时也助力科技情报人员对科研趋势和前沿动态的监测与分析。
数据集最近研究
最新研究方向
arXiv公共数据集作为学术研究的重要资源,近期研究主要聚焦于文章元数据的挖掘与分析,如通过文章标题、摘要、作者信息等,探索学术网络结构、作者合作关系以及研究热点趋势。此外,该数据集支持构建引文网络,为研究学术影响力的扩散和知识传播提供了有力工具。此类研究对于促进学术交流和科学计量学的发展具有重要的现实意义。
以上内容由遇见数据集搜集并总结生成



