unarxive_2024

Hugging Face2025-06-20 更新2025-06-21 收录

下载链接：

https://huggingface.co/datasets/ines-besrour/unarxive_2024

下载链接

链接失效反馈

官方服务：

资源简介：

UnarXive 2024是一个大规模的结构化数据集，包含从1991年至2024年的230万篇全文arXiv论文，适用于自然语言处理和信息检索任务。数据集以JSONL格式存储，每篇论文都具有逻辑章节结构，并提供丰富的元数据。它支持多语言内容，主要语言为英语，同时包含引文链接和数学表达式、图表、表格等。

UnarXive 2024 is a large-scale structured dataset containing 2.3 million full-text arXiv papers spanning from 1991 to 2024, tailored for natural language processing (NLP) and information retrieval (IR) tasks. The dataset is stored in JSONL format, where each paper features a logical chapter structure and is accompanied by rich metadata. It supports multilingual content, with English as the predominant language, and also includes citation links, mathematical expressions, figures, tables, and other relevant academic materials.

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

UnarXive 2024数据集通过系统化处理arXiv.org平台1991年至2024年间积累的学术文献构建而成，采用自动化流程提取论文全文并转化为结构化JSONL格式。数据采集过程严格保留原始论文的章节划分、数学表达式及图表位置信息，同时通过算法匹配文内引用标记与参考文献条目，并整合OpenAlex数据库实现半数以上引用的唯一标识解析。

特点

该数据集囊括228万篇涵盖物理、计算机、数学等多学科的论文，其突出优势在于完整的逻辑章节标注和丰富的元数据字段，包括标题、作者、摘要及引用计数等关键信息。数据特别保留了科技文献特有的数学符号与多语言内容，内含30百万条引用关系网络和25种以上语言的文本材料，为跨语言研究提供独特资源。

使用方法

研究者可通过解析JSONL格式文件获取结构化论文数据，适用于引文推荐系统、科学问答模型等自然语言处理任务。数据集特别优化了对检索增强生成技术的支持，用户可利用章节标注和引用网络特征训练领域特定的嵌入模型。官方GitHub仓库提供了完整的数据处理流程说明，建议结合OpenAlex数据库进行扩展引文分析。

背景与挑战

背景概述

UnarXive 2024数据集由arXiv.org平台上的科学论文构建而成，涵盖了从1991年至2024年间超过230万篇全文论文，主要服务于自然语言处理（NLP）和信息检索领域的研究需求。该数据集由研究团队通过系统化处理，将论文转化为结构化JSONL格式，不仅包含传统元数据如标题、作者和摘要，还整合了章节结构、数学表达式及多语言内容。其核心研究问题聚焦于如何高效利用大规模科学文献进行知识发现与信息抽取，为学术NLP任务如引用推荐、科学问答等提供了重要资源。该数据集的发布进一步推动了学术文本挖掘与跨文献知识关联的研究进展。

当前挑战

UnarXive 2024数据集在构建与应用过程中面临多重挑战。领域问题方面，科学文献的复杂结构（如数学公式、图表和多语言内容）对文本解析与信息抽取提出了较高要求，尤其是非英语内容的处理与标准化。引用网络的动态性和不完整性使得引用解析的准确率受限，目前仅51.2%的引用链接成功关联至OpenAlex ID。构建过程中，原始数据的异构性（如LaTeX源码与PDF格式并存）导致结构化转换效率低下，而大规模数据的存储与索引优化也需克服计算资源瓶颈。这些挑战为后续数据增强与应用场景拓展提供了明确改进方向。

常用场景

经典使用场景

在学术自然语言处理领域，unarxive_2024数据集因其涵盖的230万篇arXiv论文全文而成为经典资源。研究者通常利用其结构化文本和逻辑章节划分，进行科学文献的自动摘要生成和知识图谱构建。该数据集特别适合训练能够理解学术论文复杂结构的深度学习模型，例如基于Transformer的架构在处理引言-方法-结论的篇章逻辑时展现出独特优势。

衍生相关工作

基于该数据集衍生的经典研究包括：SPECTER论文嵌入模型的改进版本、科学问答系统SciBERT的领域适应工作，以及跨文档引文关系预测的新基准。在ACL和NeurIPS等顶会上，至少15篇论文直接使用该数据集进行学术文本的表示学习评估。

数据集最近研究