allenai/scicite
收藏Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/scicite
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于分类学术论文中引用意图的数据集。每个JSON对象的主要引用意图标签由label键指定,而引用上下文由context键指定。例如:{string: In chacma baboons, male-infant relationships can be linked to both formation of friendships and paternity success [30,31]., sectionName: Introduction, label: background, citingPaperId: 7a6b2d4b405439, citedPaperId: 9d1abadc55b5e0, ...}。您可以使用提供的论文ID通过Semantic Scholar API获取论文的完整信息。标签包括:方法、背景、结果。
本数据集用于学术论文引用意图分类任务。每个JSON对象的核心引用意图标签由`label`字段指定,对应的引用上下文由`context`字段指定。示例如下:{"string": "In chacma baboons, male-infant relationships can be linked to both formation of friendships and paternity success [30,31].", "sectionName": "Introduction", "label": "background", "citingPaperId": "7a6b2d4b405439", "citedPaperId": "9d1abadc55b5e0", ...}。您可通过提供的论文ID调用Semantic Scholar API获取论文完整信息。该数据集的标签包含方法、背景、结果三类。
提供机构:
allenai
原始信息汇总
数据集概述
数据集名称: SciCite
数据集大小:
- 下载大小: 23.19 MB
- 生成数据集大小: 5.15 MB
- 总磁盘使用量: 28.33 MB
数据集语言: 英语 (en)
数据集许可证: 未知
多语言性: 单语
数据集来源: 原始数据
任务类别: 文本分类
具体任务:
- 意图分类
- 多类别分类
数据集ID: scicite
数据集结构
数据实例
示例: json { "citeEnd": 68, "citeStart": 64, "citedPaperId": "5e413c7872f5df231bf4a4f694504384560e98ca", "citingPaperId": "8f1fbe460a901d994e9b81d69f77bfbe32719f4c", "excerpt_index": 0, "id": "8f1fbe460a901d994e9b81d69f77bfbe32719f4c>5e413c7872f5df231bf4a4f694504384560e98ca", "isKeyCitation": false, "label": 2, "label2": 0, "label2_confidence": 0.0, "label_confidence": 0.0, "sectionName": "Discussion", "source": 4, "string": "These results are in contrast with the findings of Santos et al.(16), who reported a significant association between low sedentary time and healthy CVF among Portuguese" }
数据字段
string: 字符串类型sectionName: 字符串类型label: 分类标签,可能值包括method(0),background(1),result(2)citingPaperId: 字符串类型citedPaperId: 字符串类型excerpt_index: 整数类型isKeyCitation: 布尔类型label2: 分类标签,可能值包括supportive(0),not_supportive(1),cant_determine(2),none(3)citeEnd: 长整型citeStart: 长整型source: 分类标签,可能值包括properNoun(0),andPhrase(1),acronym(2),etAlPhrase(3),explicit(4)label_confidence: 浮点型label2_confidence: 浮点型id: 字符串类型
数据分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| 默认 | 8194 | 916 | 1859 |
搜集汇总
数据集介绍

构建方式
在学术文献计量学领域,SciCite数据集的构建体现了对科学引文意图的精细标注需求。该数据集源自学术出版物中的引文上下文,通过专家生成与群体众包相结合的方式完成标注。数据来源于原始科学文献,涵盖了超过一万条数据实例,每条实例包含引文文本、所属章节及引文意图标签。构建过程中,标注者依据结构化框架对引文进行分类,确保了标注的一致性与可靠性,为后续的意图分类任务奠定了坚实基础。
特点
SciCite数据集在科学文本挖掘领域展现出多维度特征。其核心在于提供了引文意图的三元分类体系,包括方法、背景与结果,同时辅以支持性判断的四类标签。数据集不仅包含丰富的元数据,如引文位置、章节名称及论文标识符,还引入了置信度评分以反映标注的确定性。这些特征使得数据集能够支持复杂的多任务学习,为深入理解科学文献中的引文行为提供了结构化视角。
使用方法
针对自然语言处理中的文本分类任务,SciCite数据集的使用需遵循其内在结构。研究者可通过HuggingFace平台直接加载数据集,利用其预划分的训练、验证与测试集进行模型开发。典型应用包括构建引文意图分类器,通过分析引文上下文与章节信息预测引文类别。数据集中提供的论文标识符可与语义学者API结合,获取更广泛的文献元数据,从而扩展研究维度。使用时应注重标签分布与置信度指标,以确保模型评估的严谨性。
背景与挑战
背景概述
在学术文献计量与自然语言处理交叉领域,科学引文意图的自动识别是深化文献理解与知识发现的关键环节。由艾伦人工智能研究所(Allen Institute for AI)于2019年构建的SciCite数据集,正是针对这一核心研究问题而诞生的专项语料库。该数据集通过标注学术论文中的引用上下文,旨在精准分类引用的核心意图,主要涵盖方法、背景与结果三大类别。其构建依托于《Structural Scaffolds for Citation Intent Classification in Scientific Publications》这一研究论文,不仅推动了引文分析领域的算法创新,也为学术信息检索、知识图谱构建及科学影响力评估提供了重要的数据支撑,显著提升了自动化文献综述与元分析的研究效率。
当前挑战
SciCite数据集致力于解决科学文献中引文意图分类的复杂挑战,其核心难点在于引文上下文的语义模糊性与领域特异性。不同学科的行文风格与引用惯例存在显著差异,使得模型难以捕捉跨领域的统一特征;同时,引文语句往往嵌套于复杂的学术论述中,意图边界不甚清晰,例如背景引用与结果引用可能交织出现,对分类器的判别精度构成严峻考验。在数据构建层面,挑战主要源于标注过程的高专业门槛。引文意图的判断需要标注者具备深厚的学科知识,导致标注成本高昂且一致性难以保障;此外,原始语料来自异构的学术出版物,其格式、章节结构与引用规范不一,为数据的清洗、归一化与对齐带来了额外的技术障碍。
常用场景
经典使用场景
在学术文本挖掘领域,SciCite数据集为引文意图分类任务提供了标准化的评估基准。该数据集通过标注引文上下文及其对应的意图类别,如方法、背景或结果,使得研究人员能够训练和验证自然语言处理模型,以自动识别科学文献中引用的功能属性。这一经典应用场景不仅推动了引文分析技术的精细化发展,也为理解学术交流的深层结构奠定了数据基础。
实际应用
在实际应用中,SciCite数据集支撑了智能学术辅助工具的研发,例如自动化文献摘要系统和引文推荐引擎。科研人员可利用基于该数据集训练的模型,快速筛选与特定研究问题相关的参考文献,或评估已有研究对自身工作的支持程度。出版机构则能借此优化审稿流程,通过分析引文意图来识别论文的创新性与论证严谨性,从而提升学术出版的效率与质量。
衍生相关工作
围绕SciCite数据集,衍生了一系列经典研究工作,例如结合图神经网络与上下文嵌入的引文分类模型,以及跨领域引文意图迁移学习框架。这些工作不仅拓展了数据集的适用范围,还催生了新的学术评测任务,如多标签引文分类和引文网络中的意图传播分析。相关成果进一步丰富了科学文本理解的理论体系,并为后续大规模学术语料库的构建提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



