librarian-bots/arxiv-metadata-snapshot

Name: librarian-bots/arxiv-metadata-snapshot
Creator: librarian-bots
Published: 2026-05-04 07:14:20
License: 暂无描述

Hugging Face2026-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/librarian-bots/arxiv-metadata-snapshot

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个arXiv元数据部分的镜像数据集。该数据集包含每篇论文的条目，包括论文的ID、提交者、作者、标题、评论、期刊引用、DOI、报告号、类别、许可证、摘要和版本历史等信息。数据集每周同步一次，可能略微落后于原始数据集。

提供机构：

librarian-bots

原始信息汇总

arXiv Metadata Dataset 数据集概述

基本信息

语言: 英语
许可证: CC0-1.0
数据集大小: 1M < n < 10M
任务类别: 文本生成、文本分类
数据集名称: arXiv Metadata Dataset

配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

数据集信息

特征

id: 字符串
submitter: 字符串
authors: 字符串
title: 字符串
comments: 字符串
journal-ref: 字符串
doi: 字符串
report-no: 字符串
categories: 字符串
license: 字符串
abstract: 字符串
versions: 列表
- version: 字符串
- created: 字符串
update_date: 时间戳[秒]
authors_parsed: 序列
- 序列: 字符串

分割

train:
- 字节数: 3780979167.0
- 样本数: 2506972

下载和数据集大小

下载大小: 2117862894
数据集大小: 3780979167.0

该数据集源自康奈尔大学在Kaggle上发布的arXiv元数据快照，通过定期同步机制保持与原始数据源的一致性，目前约每周更新一次。数据集以Parquet格式存储，包含约303万条论文记录，涵盖从1991年至今的arXiv论文元数据。每条记录包含id、提交者、作者、标题、评论、期刊引用、DOI、报告号、分类标签、许可证、摘要、版本历史、更新日期以及解析后的作者列表等15个字段，构建了一个结构化的学术论文元数据仓库。

特点

该数据集最显著的特点是其全面性和权威性，作为arXiv官方元数据的镜像，它覆盖了数学、物理、计算机科学等全部学科领域的论文信息。数据集采用CC0-1.0许可证，完全开放共享，极大地降低了学术研究的数据获取门槛。此外，每个条目包含详细的版本历史记录，为追踪论文修改历程提供了可能，同时通过arXiv ID与原始论文页面和PDF文件建立了直接链接，支持从元数据到全文的无缝衔接。

使用方法

研究人员可通过HuggingFace Datasets库轻松加载该数据集，支持文本生成与文本分类等典型任务。使用时只需指定'train'分片即可获取全部303万条记录，每条记录按字段名访问，例如通过'id'字段可直接跳转至arXiv论文页面（https://arxiv.org/abs/{id}）或PDF文件（https://arxiv.org/pdf/{id}）。该数据集特别适合用于学术文献计量分析、自然语言处理领域的论文摘要分类、作者合作网络研究以及科学知识图谱构建等研究方向。

背景与挑战

背景概述

arXiv元数据快照（arxiv-metadata-snapshot）数据集由康奈尔大学图书馆维护，定期从arXiv.org平台同步论文元数据，创建时间可追溯至arXiv自1991年启用的开放获取预印本库。该数据集整合了超过300万篇学术论文的元信息，涵盖计算机科学、物理学、数学、生物学等数十个学科领域，核心研究问题在于为科研人员、数据挖掘专家和自然语言处理社区提供结构化、标准化的学术文献索引资源。通过记录每篇论文的标识符、提交者、作者、标题、摘要、分类标签及版本历史等关键字段，该数据集成为学术知识图谱构建、文献计量分析、研究趋势追踪、科学文本生成与分类等任务的基础性语料，对推动开放科学运动与AI驱动的学术研究产生了深远影响。

当前挑战

该数据集所解决的领域问题在于应对学术文献爆炸式增长带来的信息过载挑战，为大规模自动化论文分类、主题建模、引用关系挖掘等任务提供统一元数据来源。构建过程中面临的技术挑战包括：数据同步的时效性——需每周与arXiv源库保持一致，但源库更新频繁易导致镜像滞后；异构元数据的标准化——不同学科论文的注释、期刊引用、DOI等字段格式差异显著，需设计鲁棒的解析与归一化策略；海量数据的存储与版本管理——超过3亿条记录持续增长，需解决分布式存储与增量更新的效率问题；以及作者姓名消歧与多版本标识符的关联，这些复杂性问题对数据集的质量控制和下游应用的可靠性构成持续考验。

常用场景

经典使用场景

arxiv-metadata-snapshot数据集汇聚了arXiv平台上数百万篇学术论文的元数据，涵盖计算机科学、物理学、数学、生物学等多个学科领域。其最为经典的使用场景在于为学术文本挖掘和科学知识图谱构建提供基础数据支撑。研究者可借助该数据集中的标题、摘要、作者、类别和引用关系等信息，进行大规模学科趋势分析、跨领域知识融合以及学术社群结构探测。该数据集的版本追踪机制还使其成为时间序列分析任务中研究科学演进规律的重要资源。

衍生相关工作

该数据集催生了一系列里程碑式的研究工作，包括基于深度学习的论文自动分类系统、科学主题演化预测模型以及跨学科影响力评估框架。例如，研究者利用其元数据训练了SciBERT、SPECTER等预训练语言模型，显著提升了学术文本表示的质量。此外，由此衍生的论文影响力预测、作者名消歧、基金资助效果分析等任务，已成为自然语言处理与社会计算领域的经典研究课题，持续推动相关技术的发展与创新。

数据集最近研究