arxiv-papers-by-subject

Hugging Face2025-12-21 更新2025-12-22 收录

下载链接：

https://huggingface.co/datasets/permutans/arxiv-papers-by-subject

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过250万篇arXiv论文的元数据，按照主题代码、年份和月份进行了分区，以便用户可以高效地选择性访问特定主题和时间段的论文。数据集是对原始数据集nick007x/arxiv-papers的重组版本，解决了原始数据集整体结构需要下载整个数据集的问题。数据被组织成小的、集中的parquet文件，按照主题代码（如cs.AI、astro-ph.CO、math.NA）、年份（1989–2025）和月份（01–12）进行分区。这种结构支持下载特定研究领域的数据、获取特定时间范围的数据、增量更新新发表的论文以及高效的缓存和懒加载。数据集包括148个arXiv主题类别，涵盖天体物理学、凝聚态物质、计算机科学、经济学、电气工程、数学、物理学、定量生物学、定量金融、统计学和非线性科学等多个领域。每个parquet文件包含arxiv_id、标题、作者、提交日期、评论、主要主题、所有主题、DOI、摘要和文件路径等字段。

This dataset contains metadata for over 2.5 million arXiv papers, partitioned by subject codes, years and months to enable users to efficiently and selectively access papers from specific topics and time periods. This is a restructured version of the original dataset nick007x/arxiv-papers, which addresses the limitation of the original dataset's structure that required users to download the entire dataset to access partial content. The data is organized into small, compact Parquet files, partitioned by subject codes (e.g., cs.AI, astro-ph.CO, math.NA), years (1989–2025) and months (01–12). This structure supports downloading data for specific research domains, retrieving data within specified time ranges, incrementally updating newly published papers, as well as efficient caching and lazy loading. The dataset includes 148 arXiv subject categories, covering a wide range of fields including astrophysics, condensed matter physics, computer science, economics, electrical engineering, mathematics, physics, quantitative biology, quantitative finance, statistics, and nonlinear science. Each Parquet file contains fields such as arxiv_id, title, authors, submission date, comments, primary subject, all subjects, DOI, abstract, and file path.

创建时间：

2025-12-21

原始信息汇总

arXiv Papers by Subject 数据集概述

数据集基本信息

数据集名称: arXiv Papers by Subject
发布者: permutans
源数据集: nick007x/arxiv-papers
许可协议: MIT License
任务类别: 文本生成、特征提取
语言: 英语
标签: arxiv, academic-papers, scientific-literature, research, metadata
数据规模: 1M<n<10M

数据集描述

这是一个对 nick007x/arxiv-papers 数据集的重组版本，按学科代码、年份和月份进行分区，以实现高效的选择性访问。该数据集包含超过250万篇arXiv论文的元数据，组织成层次化的目录结构，允许用户仅下载所需的特定学科和时间段的数据，而非整个数据集。

数据集结构

数据按以下层级组织：

学科代码 (例如 cs.AI, astro-ph.CO, math.NA)
年份 (1989–2025)
月份 (01–12)

文件结构示例：

data/ ├── astro-ph.CO/ │ ├── 2009/ │ │ ├── 01/ │ │ │ └── 00000000.parquet │ │ ├── 02/ │ │ │ └── 00000000.parquet │ │ └── ... │ └── ... ├── cs.AI/ │ ├── 1993/ │ │ └── ... │ └── 2025/ │ └── ... ├── cs.LG/ │ └── ... └── ...

学科类别

数据集涵盖148个arXiv学科类别，主要领域包括：

天体物理学：astro-ph.* x 6
凝聚态物理：cond-mat.* x 9
计算机科学：cs.* x 60
经济学：econ.* x 3
电气工程：eess.* x 4
数学：math.* x 30
物理学：gr-qc, hep-* x 4, nucl-* x 2, quant-ph, physics.* x 22
定量生物学：q-bio.* x 10
定量金融：q-fin.* x 8
统计学：stat.* x 5
非线性科学：nlin.* x 5

数据字段

每个Parquet文件包含以下字段（继承自源数据集）：

字段	类型	描述
`arxiv_id`	string	唯一的arXiv标识符 (例如 `2301.00001`)
`title`	string	论文标题
`authors`	list[string]	作者姓名列表
`submission_date`	string	提交日期 (例如 `18 Feb 2009`)
`comments`	string	作者评论（页数、图表等）
`primary_subject`	string	主要的arXiv类别及描述
`subjects`	string	论文所属的所有arXiv类别
`doi`	string	DOI链接（如果可用）
`abstract`	string	论文摘要
`file_path`	string	源数据集中PDF文件的路径

注意：file_path 中的ZIP文件指向 nick007x/arxiv-papers 数据集。

数据集统计

论文总数: 约255万篇
学科类别数: 167个
年份范围: 1998–2025年
文件格式: Parquet（压缩格式）

使用方式

支持通过 huggingface_hub 库下载特定学科和时段的文件，或使用Glob模式下载多个文件。数据集可与Polars LazyFrames配合使用，实现惰性扫描和过滤。

来源与许可

来源: 本数据集派生自 nick007x/arxiv-papers，该数据集提供了完整的arXiv科学论文存档。原始数据集包含元数据和PDF；本派生数据集仅包含为高效部分访问而重组的元数据。
底层论文内容: 源自康奈尔大学运营的 arXiv.org。
许可: 数据集打包和组织遵循MIT License；单个论文内容遵循arXiv和相应作者指定的许可。

引用

若使用本数据集，请同时引用此重组版本和原始源数据集。

搜集汇总

数据集介绍

构建方式

在学术文献管理领域，arXiv作为开放获取预印本平台，积累了海量研究论文。本数据集基于nick007x/arxiv-papers原始资源，通过智能重组构建而成。其核心方法是将超过250万篇论文的元数据，依据学科分类代码、年份和月份进行层次化分区，形成以Parquet格式存储的模块化文件结构。这种设计使得数据能够按需获取，用户无需下载完整数据集即可访问特定学科或时间段的文献信息，显著提升了数据检索与处理的效率。

使用方法

针对研究者在文献分析中的实际需求，该数据集提供了多种高效的使用途径。用户可通过Hugging Face Hub接口，精确下载特定学科与时间范围内的Parquet文件，并利用Polars等工具进行快速读取与处理。此外，支持通配符模式批量获取文件，结合惰性加载机制，能够在大规模数据集中实现灵活查询与过滤。这种使用方法既降低了本地存储负担，也优化了计算资源分配，适用于趋势分析、学科交叉研究等多种学术场景。

背景与挑战

背景概述

arXiv作为由康奈尔大学运营的预印本服务器，自1991年成立以来已成为物理学、计算机科学、数学等多学科领域快速传播研究成果的关键平台。随着学术文献的指数级增长，如何高效组织与访问海量论文元数据成为重要研究课题。在此背景下，数据集‘arxiv-papers-by-subject’于2025年由贡献者permutans构建并发布，它是对原始数据集‘nick007x/arxiv-papers’的结构化重组版本。该数据集核心目标在于解决大规模学术元数据检索中的选择性访问难题，通过按学科分类、年份与月份的分区存储，为用户提供精准的数据获取途径，从而支持文本生成、特征提取等自然语言处理任务，并促进学术趋势分析、领域知识图谱构建等研究应用。

当前挑战

该数据集致力于应对学术文献挖掘中的核心挑战：如何从涵盖数百万篇论文、跨越多学科的庞大元数据集合中，实现高效、灵活的细粒度查询与访问。具体而言，其解决的领域问题在于克服传统单一文件存储模式带来的数据加载瓶颈，允许研究者仅下载特定学科或时间段的子集，从而降低计算与存储开销。在构建过程中，挑战主要源于数据重组与分区设计的复杂性，需确保148个学科类别与近三十年时间跨度的层次化结构既能保持数据完整性，又能支持高效的全局或局部扫描。此外，维持与源数据集的一致性，并处理学科分类的动态演变与元数据字段的异构性，亦是构建中需妥善处理的技术难点。

常用场景

经典使用场景

在科学文献信息检索与知识发现领域，arXiv Papers by Subject数据集凭借其按学科分类、时间分区的结构化组织，为研究者提供了高效的数据访问途径。该数据集最经典的使用场景在于支持大规模学术文献的定向分析与挖掘，例如，机器学习领域的研究者可以便捷地提取计算机科学类别下特定年份的论文元数据，用于追踪技术演进趋势或构建领域知识图谱。这种精细化的数据划分机制，显著降低了数据处理的计算负担，使得跨学科比较与纵向历史分析成为可能。

解决学术问题

该数据集有效解决了学术研究中常见的大规模科学文献数据管理与分析难题。传统上，处理涵盖多学科、长达数十年的完整arXiv数据集需要极高的存储与计算资源，而该数据集通过按主题与时间切片，使研究者能够精准定位所需子集，从而专注于特定科学问题的探索。它支持文献计量学、科学学与学术影响力评估等研究，为理解学科发展动态、识别新兴研究前沿提供了可靠的数据基础，推动了数据驱动型科研范式的进步。

实际应用

在实际应用层面，arXiv Papers by Subject数据集广泛应用于学术信息服务平台与科研辅助工具的构建。例如，学术搜索引擎可利用该数据集实现按学科与时间的快速文献过滤；研究机构能够基于此进行人才发现与合作网络分析；出版与科技情报部门则借助其追踪热点领域，辅助决策支持。此外，教育领域也可利用该数据集开发课程资源推荐系统，为学生提供最新的学科文献阅读材料，体现了其在提升科研效率与知识传播中的实用价值。

数据集最近研究