Scientific Knowledge Contribution (SKC) Dataset
收藏github2025-09-14 更新2025-09-16 收录
下载链接:
https://github.com/iconf2026/SKC-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个高质量的知识贡献分类数据集,包含从ACL Anthology收集的802,202个引用实例中标注的2,000个样本。该数据集将引用贡献系统分为五个主要类别:方法技术、资源工具、理论、证据发现和背景,旨在从探索作者为什么引用转向识别被引用工作贡献了什么知识。
This is a high-quality knowledge contribution classification dataset, which contains 2,000 annotated samples derived from 802,202 citation instances collected from the ACL Anthology. This dataset categorizes citation contributions into five major categories: methodological techniques, resource tools, theories, evidence discovery, and background, aiming to shift the research focus from exploring the motivations behind authors' citations to identifying what knowledge the cited works have contributed.
创建时间:
2025-09-14
原始信息汇总
Scientific Knowledge Contribution (SKC) 数据集
概述
数据集针对科学文献的指数级增长,提出从主观引用意图分析转向客观知识贡献识别的方法论转变。包含2000个标注样本,来自ACL Anthology收集的802,202个引用实例。
研究动机
- 主观性问题:关注作者主观动机而非被引作品的客观贡献
- 去语境化问题:脱离真实引用语境
- 规模限制:主流数据集(如ACL-ARC、SciCite)过小
- 粒度不足:缺乏细粒度贡献类型分类
SKC分类框架
| 类别 | 描述 | 示例 |
|---|---|---|
| 方法技术 | 引用论文直接使用、实现、改进或扩展被引论文的方法、技术、算法、模型、系统、解析器或评估指标 | "We adopt the BERT model [CITATION] as our encoder" |
| 资源工具 | 引用论文使用被引论文创建的数据集、语料库或明确标记的工具包/工具箱 | "We first extracted texts from DeReKo corpus [CITATION]" |
| 理论 | 引用论文采用被引论文的理论概念、定义、框架或范式构建理论基础 | "We use the theoretical rules proposed by [CITATION] to help us better establish each category" |
| 证据发现 | 引用提供具体、可验证的实证发现(实验结果、性能数据、观察现象)用于直接比较、证明决策或陈述实证事实 | "[CITATION] showed RNNs fail on long sequences, so we use Transformers" |
| 背景 | 引用提供必要的理解基础或通过发展历程(垂直时间线)或研究景观(水平快照)定位研究领域 | "Multimodal sentiment analysis has become a research hotspot [CITATION1] [CITATION2][CITATION3]" |
数据集构建
数据来源
- 语料库:ACL Anthology(1980-2024)
- 原始引用:802,202个实例
- 标注样本:2000个高质量实例
- 语言:主要为英语学术论文
标注过程
- 专家标注:具有NLP背景的领域专家
- 质量控制:多轮验证和一致性检查
- 标注者间一致性:Cohens κ > 0.75
- 指南开发:全面的标注指南
搜集汇总
数据集介绍

构建方式
在科学文献激增的背景下,SKC数据集通过系统化的构建流程实现了知识贡献的客观识别。数据源自ACL Anthology(1980-2024年)的802,202条原始引用实例,经过领域专家筛选与标注,最终形成2,000个高质量样本。标注过程由具备自然语言处理背景的专家团队执行,采用多轮验证与一致性检查确保质量,科恩κ系数超过0.75,并辅以详尽的标注指南支撑分类框架的可靠性。
特点
SKC数据集的核心特点在于其创新的五维分类框架,突破了传统引用分析的主观局限性。该框架涵盖方法技术、资源工具、理论、证据发现及背景五大类别,每个类别均配有明确的操作定义与实例说明,例如方法技术类要求直接使用引用文献中的算法或模型。数据集样本均来自真实学术语境,语言以英语为主,兼具规模性与细粒度特性,为计算语言学领域提供了多维度的知识贡献分析基础。
使用方法
该数据集适用于自然语言处理领域的知识导航与理论构建研究,使用者可通过解析标注样本训练分类模型,自动识别科学文献中的知识贡献类型。应用时需依据提供的分类指南解析引用上下文,重点关注‘我们’直接使用或采纳的客观内容,而非作者主观动机。数据集支持模型性能评估、学术影响力分析等场景,但需注意严格遵循标注规范以确保结果可比性。
背景与挑战
背景概述
科学文献的指数级增长重塑了当代研究格局,催生了面向知识导航与理论构建的新型计算方法需求。由ACL Anthology研究团队于2024年创建的Scientific Knowledge Contribution (SKC)数据集,标志着从主观引用意图分析向客观知识贡献识别的范式转移。该数据集基于80万条引文实例构建的2000条高质量标注样本,首次系统化定义了方法技术、资源工具、理论框架、实证发现和背景知识五维贡献分类体系,为计算语言学领域的知识图谱构建和科学进步量化评估提供了核心基础设施。
当前挑战
该数据集致力于解决科学引文分析中知识贡献类型的细粒度分类问题,其核心挑战在于突破传统功能型引用分类的主观性局限与上下文脱节问题。构建过程中需克服大规模引文实例的语义歧义消除难题,特别是在区分方法论应用与理论框架借鉴、实证数据引用与背景综述时的边界模糊性。标注一致性保障要求设计多轮验证机制,而学科领域术语的演化特性更增加了标注指南制定的复杂性,需通过领域专家协同标注与科恩κ系数大于0.75的质量控制标准来确保数据可靠性。
常用场景
经典使用场景
在科学文献计量分析领域,SKC数据集通过精细化的知识贡献分类框架,为大规模学术文献的智能解析提供了标准化基准。该数据集典型应用于自然语言处理模型的训练与评估,特别是针对引文语境中知识贡献类型的自动识别任务,研究者可基于其多维度标注体系开发新型文献挖掘算法,显著提升学术知识图谱构建的准确性与可解释性。
衍生相关工作
基于SKC数据集构建的细粒度引文分类模型已成为学术文本挖掘领域的新基准,催生了系列结合深度学习与知识图谱的创新型研究。其标注体系被多项后续工作扩展应用于跨学科文献分析,衍生出融合语义角色标注的贡献抽取方法以及面向大规模学术数据库的自动索引系统,持续推动计算社会科学与科学计量学的融合发展。
数据集最近研究
最新研究方向
在科学文献激增的背景下,Scientific Knowledge Contribution (SKC) 数据集正推动知识贡献识别研究从主观动机分析转向客观功能分类。当前研究聚焦于利用深度学习模型自动识别引文的五种知识贡献类型(方法技术、资源工具、理论、证据发现和背景),结合大语言模型进行细粒度语义解析,以解决传统文献计量方法在规模与粒度上的局限。这一方向与科学知识图谱构建和学术影响力量化评估紧密关联,为智能文献检索和跨学科知识发现提供了新的理论基础与技术路径。
以上内容由遇见数据集搜集并总结生成



