arXiv

Opencsg2024-03-14 更新2024-06-22 收录

下载链接：

https://www.opencsg.com/datasets/OpenDataLab/arXiv

下载链接

链接失效反馈

官方服务：

资源简介：

Arxiv HEP-TH（高能物理理论）引文图来自电子版 arXiv，涵盖了包含 27,770 篇论文和 352,807 条边的数据集中的所有引文。如果一篇论文 i 引用了论文 j，则该图包含从 i 到 j 的有向边。如果一篇论文引用了数据集之外的一篇论文，或者被该论文引用，则图表不包含任何相关信息。数据涵盖 1993 年 1 月至 2003 年 4 月（124 个月）期间的论文。

The Arxiv HEP-TH (High Energy Physics - Theory) citation graph is sourced from the electronic arXiv repository. It contains all valid citation relationships from a dataset consisting of 27,770 papers and 352,807 directed edges. A directed edge from paper i to paper j is included in the graph if paper i cites paper j, where both papers are part of this dataset. No relevant citation information is recorded for any citation that involves at least one paper outside the scope of this dataset. The dataset covers papers published between January 1993 and April 2003, spanning a total of 124 months.

创建时间：

2024-03-14

搜集汇总

数据集介绍

构建方式

arXiv数据集的构建基于arXiv.org平台，该平台自1991年以来一直是开放获取科学文献的主要来源。数据集通过自动化的爬虫程序定期从arXiv.org上抓取最新的学术论文，涵盖物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学等多个领域。每篇论文的元数据包括标题、作者、摘要、关键词、提交日期和分类标签等信息，确保了数据的全面性和时效性。

特点

arXiv数据集以其广泛的主题覆盖和高质量的内容著称。该数据集不仅包含了大量的学术论文，还提供了详细的元数据，便于研究者进行深入分析和挖掘。此外，arXiv数据集的开放获取特性使得全球的研究人员都能免费访问和使用，极大地促进了科学知识的传播和共享。

使用方法

使用arXiv数据集时，研究者可以通过API接口或直接下载数据文件进行访问。数据集的结构化格式使得数据处理和分析变得相对简单。研究者可以利用该数据集进行文献计量分析、主题建模、趋势预测等多种研究。此外，由于数据集的开放性，研究者还可以将其与其他数据集结合使用，以获得更丰富的研究成果。

背景与挑战

背景概述

arXiv数据集源自于1991年，由美国康奈尔大学图书馆创建，旨在为全球科研人员提供一个开放获取的电子预印本平台。该平台最初专注于物理学领域，随后扩展至数学、计算机科学、定量生物学、定量金融与统计学等多个学科。arXiv的建立极大地促进了学术交流的效率，使得研究成果能够在正式发表前迅速传播，从而加速了科学研究的进程。其影响力不仅体现在学术界，还对工业界和政策制定者产生了深远的影响。

当前挑战

arXiv数据集在构建过程中面临诸多挑战。首先，数据集的规模庞大，涵盖了数百万篇论文，如何高效地存储和检索这些数据成为一个重要问题。其次，由于arXiv的开放性，数据质量参差不齐，如何确保论文的学术质量和可靠性是一大挑战。此外，随着学科交叉的增多，如何有效地分类和索引不同领域的论文，以满足用户多样化的需求，也是一项复杂任务。最后，随着人工智能技术的发展，如何利用机器学习方法对arXiv数据进行深度分析，以挖掘潜在的科学价值，是当前研究的前沿课题。

发展历史

创建时间与更新

arXiv数据集创建于1991年，由Paul Ginsparg在洛斯阿拉莫斯国家实验室发起，旨在促进科学研究的开放获取。自创建以来，arXiv不断更新，目前已成为全球最大的预印本存储库之一，每日接收并发布大量学术论文。

重要里程碑

arXiv的重要里程碑包括1991年的创建，标志着开放科学资源的新纪元；2001年迁移至康奈尔大学，确保了其长期运营的稳定性；2011年推出的arXiv-NG项目，旨在提升数据存储和检索的效率。此外，arXiv还引入了机器学习算法来辅助论文分类和推荐，进一步提升了用户体验和学术交流的效率。

当前发展情况

当前，arXiv继续在全球范围内发挥着重要作用，成为科研人员提交和获取最新研究成果的首选平台。其不仅支持多种学科领域，还通过持续的技术创新和社区合作，确保了数据的高质量和可访问性。arXiv的发展对推动科学知识的传播和学术交流的全球化具有深远意义，为学术界提供了一个开放、透明且高效的交流平台。

发展历程

arXiv首次发布，作为物理学领域的预印本服务器，由Paul Ginsparg在洛斯阿拉莫斯国家实验室创建。
1991年
arXiv迁移至康奈尔大学，并扩展至包括数学、计算机科学、统计学、电气工程和系统科学等多个学科领域。
1999年
arXiv引入新的提交和审核系统，以提高数据质量和可靠性。
2001年
arXiv推出新的用户界面和搜索功能，增强用户体验和数据检索效率。
2010年
arXiv与微软合作，引入AI技术以辅助论文分类和推荐系统，进一步提升数据集的智能化管理。
2019年

常用场景

经典使用场景

在学术研究领域，arXiv数据集被广泛用于自然语言处理和机器学习任务。研究者们利用arXiv中的海量科技论文，进行文本分类、主题建模和信息检索等经典任务。通过分析论文的摘要和全文，研究者能够提取出关键信息，进而构建高效的学术搜索系统，帮助学者快速定位相关研究成果。

解决学术问题

arXiv数据集在解决学术研究问题方面具有重要意义。它为研究者提供了一个丰富的资源库，用于探索和验证各种自然语言处理算法。例如，通过arXiv数据集，研究者可以开发出更精确的文本分类模型，从而提高学术文献的组织和检索效率。此外，该数据集还促进了跨学科研究，使得不同领域的学者能够共享和分析数据，推动科学知识的进步。

衍生相关工作

基于arXiv数据集，研究者们开展了许多经典工作。例如，一些研究团队利用arXiv中的论文数据，开发了先进的文本生成模型，能够自动生成高质量的科技论文摘要。此外，还有研究专注于构建跨学科的知识图谱，通过分析arXiv中的论文，揭示不同学科之间的关联和交叉点。这些衍生工作不仅丰富了自然语言处理的研究内容，还为学术界提供了新的研究工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集