STEM-ECR v1.0
收藏arXiv2020-07-28 更新2024-06-21 收录
下载链接:
https://doi.org/10.25835/0017546
下载链接
链接失效反馈官方服务:
资源简介:
STEM-ECR v1.0数据集是由德国汉诺威莱布尼茨科学和科技信息中心创建的,用于评估科学实体提取、分类和解析任务的基准。数据集涵盖了10个STEM学科的摘要,这些学科在主要出版平台上被认为是最多产的。数据集的创建过程涉及多学科语境下科学实体的通用概念形式主义,以及通过百科全书实体链接和词汇语义消歧进行的人工注释科学实体的三步实体解析程序。该数据集的应用领域包括科学文献的智能化自动处理,如搜索应用,以及知识图谱在学术和工业环境中的应用。
The STEM-ECR v1.0 dataset is a benchmark created by the Leibniz Information Centre for Science and Technology (LIT) in Hanover, Germany, for evaluating scientific entity extraction, classification, and parsing tasks. The dataset covers abstracts from 10 STEM disciplines recognized as the most prolific across major publishing platforms. The dataset creation process involves a general conceptual formalism for scientific entities in interdisciplinary contexts, as well as a three-step entity resolution procedure for manually annotated scientific entities via encyclopedic entity linking and lexical semantic disambiguation. Application scenarios of this dataset include intelligent automatic processing of scientific literature (e.g., search applications) and the application of knowledge graphs in academic and industrial environments.
提供机构:
德国汉诺威莱布尼茨科学和科技信息中心
创建时间:
2020-03-03
搜集汇总
数据集介绍

构建方式
在科学、技术、工程和医学(STEM)领域,随着知识图谱技术的兴起,对学术文献进行语义建模的需求日益增长。STEM-ECR v1.0数据集的构建过程体现了多学科交叉的特点,其核心是基于Elsevier Labs发布的开放获取STEM语料库,涵盖农业、天文学、生物学等十个高产学科。构建过程分为两个阶段:首先,通过迭代式试点标注,从现有科学概念形式化体系中提炼出PROCESS、METHOD、MATERIAL和DATA四个通用科学概念类别;随后,由两位计算机科学博士后研究人员进行人工标注,经过多轮标注试验和领域专家访谈,最终形成了包含6,127个科学实体的标注语料库,并获得了0.76的科恩卡帕系数,表明标注者间具有较高的一致性。
特点
该数据集在科学实体识别与消歧领域展现出独特的多维特征。其核心优势在于跨学科的通用性,通过四个精心设计的科学概念类别(PROCESS、METHOD、MATERIAL、DATA),成功桥接了十个STEM学科领域,突破了传统科学信息抽取任务的领域限制。数据集进一步丰富了语义维度,为科学实体提供了百科全书式链接(链接至维基百科)和词典式词义消歧(链接至维基词典)的双重标注,使得实体不仅具有类型标签,更被锚定在真实世界的知识体系中。这种设计使得数据集能够有效评估实体消歧系统在跨学科语境下的语义适应能力,例如区分计算机科学中的“云端”与天文学中的“云朵”等术语的多义性。
使用方法
该数据集为科学信息抽取与知识图谱构建研究提供了多层次的应用场景。在基础任务层面,研究者可利用其标注的科学实体及其类型信息,训练和评估领域无关的实体识别模型,如基于SciBERT的神经网络模型,该模型在数据集上取得了65.5%的整体F1分数。在高级语义任务层面,数据集提供的实体链接和词义消歧标注,可用于开发和测试联合实体消歧系统,评估其在多学科科学文本中将术语链接到权威知识源(如维基百科、维基词典)的能力。此外,数据集还可作为知识资源,用于训练能够从海量跨学科科学文献中自动构建知识表示模型(如知识图谱)的阅读机器,推动科学知识的语义化与互联互通。
背景与挑战
背景概述
STEM-ECR v1.0数据集由德国莱布尼茨科学与技术信息中心的研究团队于2020年推出,旨在为跨学科科学文献中的实体识别、分类与消歧任务提供基准评测平台。该数据集基于爱思唯尔实验室发布的开放存取STEM学术摘要语料库构建,涵盖农业、天文学、生物学等十个高产学科领域。其核心研究问题聚焦于探索通用科学概念形式化体系在跨学科语境下的可行性,以及如何通过实体链接与词义消歧实现科学术语的语义锚定。该资源的发布显著推动了科学知识图谱构建与多领域信息抽取技术的发展,为学术文献的机器可解释性处理奠定了重要基础。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,科学实体抽取需克服跨学科术语语义歧义的难题,例如'神经网络'在计算机科学指算法而在生物学中指脑结构;同时需在有限标注成本下平衡领域专业知识依赖与标注一致性。在构建过程层面,研究团队需设计适用于十大学科的通用概念体系,并通过迭代标注与领域专家咨询解决初始标注中54%的过程实体变更问题;实体消歧阶段则需处理74.6%可链接实体的知识库映射,并应对复合短语分解中1.74倍拆分率的语义完整性保持挑战。
常用场景
经典使用场景
在科学文献信息抽取领域,STEM-ECR v1.0数据集被广泛用于评估跨学科科学实体的提取、分类与消歧任务。该数据集覆盖科学、技术、工程和医学等十个高产学科,通过统一的四类概念框架(过程、方法、材料、数据)对学术摘要进行标注,为研究者提供了一个标准化的测试平台。其经典应用场景包括训练和验证基于BERT的神经网络模型,如SciBERT,以自动识别多学科科学实体,并探索实体链接与词义消歧在学术文本中的联合性能。
解决学术问题
该数据集主要解决了多学科科学实体信息抽取中的标注一致性与领域适应性问题。通过引入通用的科学概念形式化体系,它证明了在缺乏深度领域知识的情况下,人类标注者能够可靠地标注跨学科科学实体,从而降低了数据创建的成本与门槛。此外,数据集通过结合百科全书链接与词典义项消歧,增强了科学实体的语义明确性,为知识图谱构建提供了丰富的语义基础,推动了学术文献机器可解释性的研究进展。
衍生相关工作
基于STEM-ECR v1.0数据集,衍生了一系列经典研究工作,例如Brack等人(2020)利用该数据探索了领域无关的科学概念提取方法,进一步验证了通用形式化体系的有效性。同时,该数据集启发了对多学科实体链接与词义消歧算法的深入评估,如比较Babelfy、TagMe等系统在科学文本上的性能差异。此外,相关研究还扩展到知识图谱构建领域,支持如Open Research Knowledge Graph等项目,推动学术知识的结构化与语义互联。
以上内容由遇见数据集搜集并总结生成



