arXiv public datasets

github2019-08-08 更新2024-05-31 收录

下载链接：

https://github.com/IIT-Lab/arxiv-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从arXiv公开可用数据中生成各种公共数据集的仓库，包括文章元数据、PDF文件、纯文本、引用图和作者字符串解析等。

This repository generates various public datasets from openly available data on arXiv, including article metadata, PDF files, plain text, citation graphs, and author string parsing.

创建时间：

2019-05-03

原始信息汇总

数据集概述

数据集内容

Article metadata：包括标题、作者字符串、分类、doi、摘要、提交者信息。
PDFs：通过arXiv批量下载的所有PDF文件。
Plain text：PDF文件转换成的UTF-8编码的纯文本。
Citation graph：仅限于arXiv ID之间的内部引用图。
Author string parsing：将元数据中的作者字符串转换为标准化的姓名和机构列表。

数据集生成

数据集的部分内容可以作为发布的快照在GitHub的Releases中找到。
其他部分需要用户本地生成。

数据集生成步骤

系统设置：
- 安装系统包：python3, python3-pip, python3-virtualenv, poppler-utils。
- 下载代码并准备Python环境。
- 配置数据存储目录于config.json。
Article metadata：
- 使用python bin/metadata.py下载并保存arXiv元数据。
PDFs：
- 准备AWS凭证。
- 使用python bin/pdfdownload.py进行PDF的批量下载。
Plain text：
- 使用python bin/fulltext.py将PDF转换为纯文本。
Cocitation network：
- 使用python bin/cocitations.py生成引用网络。
Author string split：
- 使用python bin/authorsplit.py解析并保存作者字符串。

数据集存储

数据集包括三个主要子目录：
- $ARXIV_DATA/tarpdfs：原始PDF文件。
- $ARXIV_DATA/fulltext：PDF转换的纯文本。
- $ARXIV_DATA/output：引用网络、解析的作者字符串等。

注意事项

PDF批量下载成本约为100美元，占用约1.1TB空间。
纯文本转换需要约400核心小时。

搜集汇总

数据集介绍

构建方式

arXiv public datasets 是通过对公开可获取的数据进行轻度后处理和组织构建而成的。该数据集的构建包括从 arXiv 公共数据中抓取或生成的文章元数据、PDF 文件、纯文本、引用图以及作者字符串解析等部分。

使用方法

使用该数据集首先需要在 Linux 系统上安装必要的系统包和 Python 环境。用户需配置数据存储路径，并通过执行相应的脚本生成所需的子目录。针对不同的数据组件，如文章元数据、PDF 文件、纯文本等，提供了专门的脚本进行下载、转换和解析。用户需按照指南操作，确保正确获取和使用数据集。

背景与挑战

背景概述

arXiv public datasets是一个基于公共数据生成的数据集仓库，旨在通过采集和后处理arXiv.org的公开数据，为研究人员提供丰富的信息资源。该数据集的创建始于对学术文献领域深入研究的需要，由研究人员Matt Bierbaum维护。该数据集包含了文章的元数据、PDF文档、文本格式的文档、引用关系图以及作者字符串的标准化列表。自发布以来，它在学术文献分析和挖掘领域产生了广泛影响，成为研究学术网络和文本挖掘的重要资源。

当前挑战

尽管arXiv public datasets为学术研究提供了宝贵的资源，但在使用过程中也存在一些挑战。首先，数据集的构建和更新需要处理大量数据，这对计算资源和存储提出了较高要求。其次，数据集的构建过程中涉及到PDF文本转换、作者字符串解析等技术问题，这些都可能影响数据的质量和可用性。此外，数据集的规模巨大，对引用关系的处理和存储提出了额外的挑战。在领域问题解决方面，如何准确高效地从非结构化的学术文献中提取结构化信息，仍是一个待解决的问题。

常用场景

经典使用场景

arXiv公共数据集作为一个全面收集学术文章及相关元数据的资源库，其经典使用场景在于为研究者提供便捷的文献检索、分析与挖掘工具。用户可以轻松获取文章的标题、作者、分类、摘要等信息，进而进行文献计量学分析、学术网络构建等研究。

解决学术问题

该数据集解决了学术研究中文献获取不全面、分析效率低下的问题，提供了大规模的文献数据，支持研究者进行大规模的文本挖掘、引用分析以及作者合作关系网络分析，从而深化了学术领域的定量研究，提升了学术研究的质量和效率。

实际应用

在实践应用中，arXiv公共数据集被广泛应用于学术出版、研究评估、科技情报分析等领域。它不仅为学术出版商提供了丰富的内容资源，还为科研机构提供了评价科研产出的重要依据，同时也助力科技情报人员对科研趋势和前沿动态的监测与分析。

数据集最近研究