allenai/scicite

Name: allenai/scicite
Creator: allenai
Published: 2023-12-21 10:19:20
License: 暂无描述

Hugging Face2023-12-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/scicite

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于分类学术论文中引用意图的数据集。每个JSON对象的主要引用意图标签由label键指定，而引用上下文由context键指定。例如：{string: In chacma baboons, male-infant relationships can be linked to both formation of friendships and paternity success [30,31]., sectionName: Introduction, label: background, citingPaperId: 7a6b2d4b405439, citedPaperId: 9d1abadc55b5e0, ...}。您可以使用提供的论文ID通过Semantic Scholar API获取论文的完整信息。标签包括：方法、背景、结果。

本数据集用于学术论文引用意图分类任务。每个JSON对象的核心引用意图标签由`label`字段指定，对应的引用上下文由`context`字段指定。示例如下：{"string": "In chacma baboons, male-infant relationships can be linked to both formation of friendships and paternity success [30,31].", "sectionName": "Introduction", "label": "background", "citingPaperId": "7a6b2d4b405439", "citedPaperId": "9d1abadc55b5e0", ...}。您可通过提供的论文ID调用Semantic Scholar API获取论文完整信息。该数据集的标签包含方法、背景、结果三类。

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称: SciCite

数据集大小:

下载大小: 23.19 MB
生成数据集大小: 5.15 MB
总磁盘使用量: 28.33 MB

数据集语言: 英语 (en)

数据集许可证: 未知

多语言性: 单语

数据集来源: 原始数据

任务类别: 文本分类

具体任务:

意图分类
多类别分类

数据集ID: scicite

数据集结构

数据实例

示例: json { "citeEnd": 68, "citeStart": 64, "citedPaperId": "5e413c7872f5df231bf4a4f694504384560e98ca", "citingPaperId": "8f1fbe460a901d994e9b81d69f77bfbe32719f4c", "excerpt_index": 0, "id": "8f1fbe460a901d994e9b81d69f77bfbe32719f4c>5e413c7872f5df231bf4a4f694504384560e98ca", "isKeyCitation": false, "label": 2, "label2": 0, "label2_confidence": 0.0, "label_confidence": 0.0, "sectionName": "Discussion", "source": 4, "string": "These results are in contrast with the findings of Santos et al.(16), who reported a significant association between low sedentary time and healthy CVF among Portuguese" }

数据字段

string: 字符串类型
sectionName: 字符串类型
label: 分类标签，可能值包括 method (0), background (1), result (2)
citingPaperId: 字符串类型
citedPaperId: 字符串类型
excerpt_index: 整数类型
isKeyCitation: 布尔类型
label2: 分类标签，可能值包括 supportive (0), not_supportive (1), cant_determine (2), none (3)
citeEnd: 长整型
citeStart: 长整型
source: 分类标签，可能值包括 properNoun (0), andPhrase (1), acronym (2), etAlPhrase (3), explicit (4)
label_confidence: 浮点型
label2_confidence: 浮点型
id: 字符串类型

数据分割

名称	训练	验证	测试
默认	8194	916	1859

搜集汇总

数据集介绍

构建方式

在学术文献计量学领域，SciCite数据集的构建体现了对科学引文意图的精细标注需求。该数据集源自学术出版物中的引文上下文，通过专家生成与群体众包相结合的方式完成标注。数据来源于原始科学文献，涵盖了超过一万条数据实例，每条实例包含引文文本、所属章节及引文意图标签。构建过程中，标注者依据结构化框架对引文进行分类，确保了标注的一致性与可靠性，为后续的意图分类任务奠定了坚实基础。

特点

SciCite数据集在科学文本挖掘领域展现出多维度特征。其核心在于提供了引文意图的三元分类体系，包括方法、背景与结果，同时辅以支持性判断的四类标签。数据集不仅包含丰富的元数据，如引文位置、章节名称及论文标识符，还引入了置信度评分以反映标注的确定性。这些特征使得数据集能够支持复杂的多任务学习，为深入理解科学文献中的引文行为提供了结构化视角。

使用方法

针对自然语言处理中的文本分类任务，SciCite数据集的使用需遵循其内在结构。研究者可通过HuggingFace平台直接加载数据集，利用其预划分的训练、验证与测试集进行模型开发。典型应用包括构建引文意图分类器，通过分析引文上下文与章节信息预测引文类别。数据集中提供的论文标识符可与语义学者API结合，获取更广泛的文献元数据，从而扩展研究维度。使用时应注重标签分布与置信度指标，以确保模型评估的严谨性。

背景与挑战

背景概述

在学术文献计量与自然语言处理交叉领域，科学引文意图的自动识别是深化文献理解与知识发现的关键环节。由艾伦人工智能研究所（Allen Institute for AI）于2019年构建的SciCite数据集，正是针对这一核心研究问题而诞生的专项语料库。该数据集通过标注学术论文中的引用上下文，旨在精准分类引用的核心意图，主要涵盖方法、背景与结果三大类别。其构建依托于《Structural Scaffolds for Citation Intent Classification in Scientific Publications》这一研究论文，不仅推动了引文分析领域的算法创新，也为学术信息检索、知识图谱构建及科学影响力评估提供了重要的数据支撑，显著提升了自动化文献综述与元分析的研究效率。

当前挑战

SciCite数据集致力于解决科学文献中引文意图分类的复杂挑战，其核心难点在于引文上下文的语义模糊性与领域特异性。不同学科的行文风格与引用惯例存在显著差异，使得模型难以捕捉跨领域的统一特征；同时，引文语句往往嵌套于复杂的学术论述中，意图边界不甚清晰，例如背景引用与结果引用可能交织出现，对分类器的判别精度构成严峻考验。在数据构建层面，挑战主要源于标注过程的高专业门槛。引文意图的判断需要标注者具备深厚的学科知识，导致标注成本高昂且一致性难以保障；此外，原始语料来自异构的学术出版物，其格式、章节结构与引用规范不一，为数据的清洗、归一化与对齐带来了额外的技术障碍。

常用场景

经典使用场景

在学术文本挖掘领域，SciCite数据集为引文意图分类任务提供了标准化的评估基准。该数据集通过标注引文上下文及其对应的意图类别，如方法、背景或结果，使得研究人员能够训练和验证自然语言处理模型，以自动识别科学文献中引用的功能属性。这一经典应用场景不仅推动了引文分析技术的精细化发展，也为理解学术交流的深层结构奠定了数据基础。

实际应用

在实际应用中，SciCite数据集支撑了智能学术辅助工具的研发，例如自动化文献摘要系统和引文推荐引擎。科研人员可利用基于该数据集训练的模型，快速筛选与特定研究问题相关的参考文献，或评估已有研究对自身工作的支持程度。出版机构则能借此优化审稿流程，通过分析引文意图来识别论文的创新性与论证严谨性，从而提升学术出版的效率与质量。

衍生相关工作

围绕SciCite数据集，衍生了一系列经典研究工作，例如结合图神经网络与上下文嵌入的引文分类模型，以及跨领域引文意图迁移学习框架。这些工作不仅拓展了数据集的适用范围，还催生了新的学术评测任务，如多标签引文分类和引文网络中的意图传播分析。相关成果进一步丰富了科学文本理解的理论体系，并为后续大规模学术语料库的构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集