arxiv-tagged-papers

Hugging Face2025-08-08 更新2025-08-09 收录

下载链接：

https://huggingface.co/datasets/sjmoran/arxiv-tagged-papers

下载链接

链接失效反馈

官方服务：

资源简介：

ArXiv标注数据集，包含约300万篇arXiv论文的清洗标题和摘要，以及通过无监督短语挖掘和语义聚类生成的每个论文的标准标签。数据集提供了每篇论文与其分配标签之间的余弦相似度得分，以及基于sentence-transformer的嵌入。数据集由两个Parquet文件组成：paper_tags.parquet包含每篇论文与其标签的配对信息，paper_metadata.parquet包含每篇论文的元数据和所有分配的标签。

ArXiv Annotated Dataset contains cleaned titles and abstracts of approximately 3 million arXiv papers, alongside standard labels generated for each paper via unsupervised phrase mining and semantic clustering. The dataset provides cosine similarity scores between each paper and its assigned labels, as well as sentence-transformer-based embeddings. It consists of two Parquet files: paper_tags.parquet stores the pairing information between each paper and its corresponding labels, while paper_metadata.parquet contains the metadata and all assigned labels for each paper.

创建时间：

2025-08-01

原始信息汇总

📚 ArXiv Tagging Dataset with Canonical Keyphrases

🏷️ 数据集基本信息

许可证: Apache 2.0
数据来源: 基于arXiv metadata snapshot处理版本
数据量: 约300万篇arXiv论文

📂 文件组成

1. `paper_tags.parquet`

结构: 每行代表一个论文-标签对
关键字段:
- paper_id: arXiv ID（含版本号）
- title: 论文标题
- tag: 规范化标签
- similarity: 标签与论文嵌入的余弦相似度
- tag_index: 标签在规范化标签词汇表中的索引
特点: 每篇论文最多出现5次（对应5个最相关标签）

2. `paper_metadata.parquet`

结构: 每行代表一篇论文的完整元数据
关键字段:
- paper_id: arXiv ID（含版本号）
- title: 论文标题
- abstract: 处理后的摘要文本
- tags: 论文的5个规范化标签列表
- text_embedding: 标题+摘要的384维句子嵌入向量

⚙️ 数据处理流程

基于TF-IDF的关键短语提取
词性过滤和启发式修剪
使用all-MiniLM-L6-v2模型进行语义嵌入
MiniBatchKMeans聚类语义相似短语
从每个簇中选择最具描述性的短语作为规范化标签
通过余弦相似度匹配论文与标签
每篇论文保留相似度最高的5个标签

💡 典型应用场景

研究论文的标签建议和自动标注
检索增强生成（RAG）系统
科学文献的语义搜索
混合检索系统（BM25+嵌入+标签匹配）

📎 使用许可

授权类型: Apache 2.0
使用限制: 需保留署名，允许学术和商业用途

搜集汇总

数据集介绍

构建方式

在科学文献管理领域，arxiv-tagged-papers数据集通过系统化的处理流程构建而成。该数据集基于arXiv元数据快照，采用多阶段自动化处理：首先利用TF-IDF算法从论文标题和摘要中提取关键短语，随后通过词性过滤和启发式修剪去除低质量短语；接着使用all-MiniLM-L6-v2模型生成语义嵌入向量，运用MiniBatchKMeans算法对语义相似的短语进行聚类；最终从每个簇中选择最具代表性的短语作为规范标签，并通过余弦相似度为每篇论文分配前5个最相关的标签。

特点

该数据集展现出显著的学术价值和技术特性。包含约300万篇arXiv论文的规范化标题和摘要，每篇论文标注有经过语义聚类生成的规范标签，并附带标签与论文之间的余弦相似度分数。数据集采用双文件结构设计：paper_tags.parquet文件详细记录每篇论文与标签的对应关系及相似度分数；paper_metadata.parquet文件则整合论文元数据、标签列表以及384维的文本嵌入向量，特别适合检索增强生成系统等应用场景。

使用方法

该数据集为科研文献分析提供了便捷的技术支持。用户可通过Python的pandas库直接读取Parquet格式文件，其中paper_tags.parquet适用于细粒度的标签分析，而paper_metadata.parquet则支持整体文献检索和语义分析任务。数据集内嵌的文本嵌入向量可直接用于构建语义搜索系统，标签相似度分数则为相关文献推荐系统提供了量化依据。典型应用场景包括研究论文自动标注、科学文献语义检索以及检索增强生成系统的开发等。

背景与挑战

背景概述

arXiv作为全球最大的预印本学术平台，自1991年由物理学家Paul Ginsparg创立以来，已收录超过300万篇涵盖物理学、计算机科学、数学等多学科的论文。arXiv-tagged-papers数据集基于Cornell University发布的arXiv元数据快照，通过无监督短语挖掘和语义聚类技术，为每篇论文自动生成规范化关键词标签。该数据集由专业团队采用TF-IDF、词性过滤、语义嵌入和聚类等自然语言处理技术构建，旨在解决海量学术文献的智能分类与检索问题，为知识发现系统提供结构化语义索引支持。其核心价值在于将非结构化的论文标题和摘要转化为机器可理解的标签体系，显著提升了学术资源的可发现性和利用率。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，学术文本的术语多义性和领域特异性导致传统关键词提取方法准确率有限，例如'neural network'在计算机视觉与计算神经科学中具有不同语义。构建过程中的挑战主要体现在数据处理复杂度上，包括处理arXiv原始数据中不规范的数学公式标记、跨学科文献的混合术语体系，以及平衡标签覆盖度与精确度的聚类阈值选择。语义嵌入模型对低频学术术语的表征能力不足，可能影响长尾领域论文的标签质量。此外，动态更新的学术术语与静态标签词汇表之间的时效性矛盾，也是持续维护需要解决的问题。

常用场景

经典使用场景

在学术文献智能处理领域，arxiv-tagged-papers数据集因其丰富的标注信息和语义嵌入特征，成为构建文献推荐系统的理想选择。该数据集通过自动化流程从论文标题和摘要中提取关键短语，并基于语义相似度进行聚类，为每篇论文生成最具代表性的标签。研究人员可借助这些结构化标签，快速建立论文之间的语义关联，实现精准的跨领域文献推荐。

解决学术问题

该数据集有效解决了大规模学术文献分类体系构建的难题。传统人工标注方法难以应对arXiv海量论文的标注需求，而通过无监督的短语挖掘和语义聚类技术，不仅自动生成了标准化的标签词汇表，还量化了论文与标签的语义关联强度。这种自动化标注范式为文献计量学、知识图谱构建等研究提供了可靠的数据基础，显著提升了学术资源的组织效率。

衍生相关工作

该数据集催生了多个具有影响力的衍生研究。部分学者利用其标签索引构建了动态演化的学科交叉图谱，揭示了新兴研究领域的形成轨迹；另有团队将语义嵌入与引文网络结合，开发了混合推荐算法SPECTER。最近的工作ArXiv-Explorer更创新性地融合了标签相似度与引用关系，实现了三维可视化的文献探索系统。

以上内容由遇见数据集搜集并总结生成