S2ORC

Name: S2ORC
Creator: 康斯坦茨大学
Published: 2024-12-11 02:01:33
License: 暂无描述

arXiv2024-12-11 更新2024-12-12 收录

下载链接：

https://drive.google.com/drive/folders/1JJ-Xbg-Tnh-2qeMEOFkaJahyFID8d7Og

下载链接

链接失效反馈

官方服务：

资源简介：

S2ORC数据集是从Semantic Scholar文献语料库中筛选出来的综合数据集，涵盖了医学、物理、生物、计算机科学等多个领域的论文。该数据集提供了论文的全文、注释、作者信息、引用作品和注释内容元素。数据集的创建过程包括从S2ORC中提取数据，并根据不同的特征（如引用位置、上下文类型等）生成诊断数据集。该数据集主要用于评估和分析引用推荐模型的性能，旨在解决引用推荐系统中的多样性和标准化问题。

The S2ORC dataset is a comprehensive curated dataset derived from the Semantic Scholar literature corpus, covering scholarly papers across multiple disciplines including medicine, physics, biology, computer science, and more. This dataset provides full texts of papers, annotations, author information, cited works, and annotated content elements. The construction of this dataset involves extracting data from S2ORC and generating diagnostic datasets based on diverse features such as citation positions and context types. This dataset is primarily utilized for evaluating and analyzing the performance of citation recommendation models, aiming to address the diversity and standardization issues present in citation recommendation systems.

提供机构：

康斯坦茨大学

创建时间：

2024-12-11

搜集汇总

数据集介绍

构建方式

S2ORC数据集的构建基于Semantic Scholar文献语料库，涵盖了医学、物理学、生物学、计算机科学等多个领域的研究论文。该数据集不仅包含论文的全文、元数据、作者信息、引用文献等，还通过S2AG数据集获取了额外的元数据。为了生成诊断数据集，研究者从S2ORC中提取了不同领域的论文，并根据引用文本的特征（如引用位置、上下文长度、引用意图等）进行分类，最终生成了多个诊断数据集，用于评估引用推荐模型的性能。

特点

S2ORC数据集的显著特点在于其广泛涵盖了多个学科领域，并且包含了丰富的元数据和全文信息。此外，该数据集通过生成多种诊断数据集，能够针对不同的引用上下文特征进行细致的评估，从而为引用推荐模型的比较提供了标准化的基准。这些诊断数据集涵盖了引用位置、上下文长度、引用意图等多个维度，确保了模型在不同场景下的性能评估。

使用方法

S2ORC数据集主要用于评估和比较引用推荐模型的性能。研究者可以通过该数据集生成的诊断数据集，针对不同的引用上下文特征进行模型评估，如引用位置、上下文长度、引用意图等。评估指标包括召回率（Recall）和平均倒数排名（MRR），并使用BM25作为基线模型进行对比。通过这些评估，研究者可以深入了解不同模型在不同引用场景下的表现，从而为模型的改进提供指导。

背景与挑战

背景概述

S2ORC数据集由Kyle Lo等人于2020年创建，旨在为引文推荐模型的评估提供一个标准化的基准。该数据集源自Semantic Scholar文献语料库，涵盖了医学、物理学、计算机科学等多个领域的研究论文，包含了论文的全文、元数据、引用信息等。S2ORC的提出旨在解决引文推荐领域中模型、数据集和评估指标多样性带来的评估难题，为研究人员提供一个统一的评估平台，从而促进引文推荐系统的进一步发展。

当前挑战

S2ORC数据集的构建面临多重挑战。首先，引文推荐模型的多样性导致不同模型在处理引文上下文时采用不同的方法，如全局信息与局部上下文的结合，这使得模型的评估和比较变得复杂。其次，数据集的构建过程中，不同领域的论文在格式和结构上的差异增加了数据处理的难度，尤其是在处理低资源领域时，数据的稀缺性进一步加剧了这一问题。此外，标准化评估指标的缺失使得不同模型之间的性能比较缺乏一致性，这也是S2ORC数据集需要解决的关键挑战之一。

常用场景

经典使用场景

S2ORC数据集的经典使用场景主要集中在引文推荐模型的评估与分析上。该数据集通过提供丰富的学术论文元数据、引文上下文以及全文信息，为引文推荐系统提供了标准化的评估基准。研究者可以利用S2ORC数据集对不同类型的引文推荐模型进行测试，尤其是针对局部引文推荐系统，评估其在不同引文上下文特征下的表现，如引文位置、上下文长度、引文意图等。

解决学术问题

S2ORC数据集解决了引文推荐领域中模型评估和比较的难题。由于不同研究使用的数据集、模型和评估指标存在多样性，导致难以进行有效的跨研究比较。S2ORC通过提供标准化的数据集和评估指标，帮助研究者在一个统一的平台上评估和比较不同的引文推荐模型，从而推动该领域的研究进展，并为未来的模型优化提供方向。

衍生相关工作

基于S2ORC数据集，研究者开发了多种引文推荐模型，如基于SciBERT的重新排序模型、图卷积网络（GCN）结合BERT嵌入的模型等。这些模型在不同的引文上下文特征上表现出色，推动了引文推荐领域的技术进步。此外，S2ORC还启发了其他相关研究，如低资源领域的引文推荐、引文上下文的语义分析等，进一步拓展了该数据集的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集