S2ORC

Name: S2ORC
Creator: 艾伦人工智能研究所
Published: 2020-07-07 08:40:21
License: 暂无描述

arXiv2020-07-07 更新2024-06-21 收录

下载链接：

https://github.com/allenai/s2orc/

下载链接

链接失效反馈

官方服务：

资源简介：

S2ORC是由艾伦人工智能研究所创建的大规模学术论文数据集，包含8110万篇英语学术论文，覆盖多个学科领域。数据集不仅包含丰富的元数据和论文摘要，还包括810万篇开放获取论文的结构化全文。S2ORC通过整合数百个学术出版商和数字档案的数据，创建了迄今为止最大的公开可用机器可读学术文本集合。该数据集特别适合用于学术文本的文本挖掘研究和开发工具，旨在解决学术文献分析和信息检索中的问题。

S2ORC is a large-scale academic paper dataset created by the Allen Institute for AI. It contains 81.1 million English academic papers spanning multiple academic disciplines. The dataset not only includes rich metadata and paper abstracts, but also provides structured full texts of 8.1 million open access papers. By integrating data from hundreds of academic publishers and digital archives, S2ORC has established the largest publicly available machine-readable academic text collection to date. This dataset is particularly well-suited for text mining research on academic texts and the development of related tools, aiming to address challenges in academic literature analysis and information retrieval.

提供机构：

艾伦人工智能研究所

创建时间：

2019-11-07

搜集汇总

数据集介绍

构建方式

S2ORC数据集的构建基于Semantic Scholar文献语料库，通过整合来自数百个学术出版商和数字档案的数据，形成了一个统一的资源。该数据集包括81.1M篇英语学术论文的丰富元数据、摘要、已解析的参考文献，以及8.1M篇开放获取论文的结构化全文。全文文本通过自动检测的内联引用、图表和表格提及进行注释，每个提及都链接到相应的论文对象。构建过程中，首先处理PDF和LATEX源以提取元数据、清理全文、内联引用和参考文献，然后选择每个论文集群的最佳元数据和全文解析，过滤掉元数据或内容不足的论文集群，最后解析语料库中论文集群之间的参考文献链接。

特点

S2ORC数据集的特点在于其规模庞大且内容丰富，涵盖了多个学术领域。它不仅提供了论文的元数据和摘要，还包含了8.1M篇开放获取论文的结构化全文，这些全文文本经过精细处理，保留了段落、章节标题、内联引用提及以及图表和表格的引用。此外，数据集还提供了1.5M篇来自arXiv的LATEX源解析，进一步增强了数据集的结构化信息。S2ORC的多样性和全面性使其成为文本挖掘和自然语言处理任务的理想资源。

使用方法

S2ORC数据集可用于多种自然语言处理和分析任务，包括但不限于内联和文档级别的引用推荐、引用意图分类、引用情感识别、关键短语提取和基于引用上下文的论文摘要生成。此外，数据集的结构化全文和引用链接使其非常适合进行跨论文的论述分析和文献计量分析。研究者可以通过访问数据集的GitHub页面获取详细的使用指南和数据访问权限，利用这些丰富的资源进行学术文本的深入研究和模型训练。

背景与挑战

背景概述

S2ORC（Semantic Scholar Open Research Corpus）是由Allen Institute for Artificial Intelligence和University of Washington的研究人员于2020年创建的一个大规模学术论文语料库。该语料库包含了8110万篇英语学术论文，涵盖了多个学术领域。S2ORC不仅提供了丰富的元数据和论文摘要，还为810万篇开放获取的论文提供了结构化的全文内容，包括引文、图表和表格的标注。S2ORC的构建旨在促进学术文本的文本挖掘工具和任务的研究与发展，对自然语言处理（NLP）和学术文献分析领域产生了深远影响。

当前挑战

S2ORC在构建过程中面临了多个挑战。首先，如何从数百个学术出版商和数字档案中聚合论文，并确保数据的一致性和质量是一个复杂的问题。其次，识别和处理开放获取的出版物，以及对全文进行结构化标注，需要高效的算法和工具支持。此外，S2ORC还需要解决引文和参考文献的自动检测与链接问题，以确保数据的准确性和完整性。这些挑战不仅涉及到技术层面的创新，还需要对学术出版生态系统有深入的理解和协调。

常用场景

经典使用场景

S2ORC数据集的经典使用场景主要集中在学术文本的挖掘和自然语言处理（NLP）任务上。由于其包含了81.1M篇学术论文的丰富元数据、摘要、引文和8.1M篇开放获取论文的全文，S2ORC特别适用于引文分析、科学计量学、信息检索和网络分析等领域的研究。此外，数据集中的全文文本经过自动检测的引文、图表和表格的标注，使得其非常适合用于开发和评估文本挖掘工具和任务。

实际应用

S2ORC数据集在实际应用中展现了其广泛的应用潜力。例如，它可以用于构建和评估引文推荐系统，帮助研究人员快速找到相关文献。此外，S2ORC的全文标注特性使其成为开发自动摘要、实体提取、文本分类和话语分析等NLP任务的理想数据集。在科学计量学领域，S2ORC可以用于分析学术趋势和研究影响力，支持政策制定和资源分配。通过这些应用，S2ORC不仅提升了学术研究的效率，还推动了相关技术的发展。

衍生相关工作

S2ORC数据集的发布催生了一系列相关研究工作。例如，基于S2ORC的全文文本，研究人员开发了SCIBERT模型，该模型在多个科学NLP任务上表现优异。此外，S2ORC还被用于构建CORD-19数据集，该数据集在COVID-19疫情期间成为了文本挖掘的重要资源。这些衍生工作不仅展示了S2ORC在学术文本处理中的强大能力，还推动了NLP技术在科学研究中的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集