GSAP-NER

Name: GSAP-NER
Creator: GESIS - 莱布尼茨社会科学研究所
Published: 2023-11-16 20:43:02
License: 暂无描述

arXiv2023-11-16 更新2024-06-21 收录

下载链接：

https://data.gesis.org/gsap/gsap-ner

下载链接

链接失效反馈

官方服务：

资源简介：

GSAP-NER数据集是由GESIS - 莱布尼茨社会科学研究所创建的，专注于机器学习模型和数据集的学术实体提取。该数据集包含100篇手动标注的全文科学出版物，涵盖了超过54,000个实体提及，旨在解决现有数据集在细粒度实体类型处理上的不足。数据集创建过程中，特别强调了对非正式提及的捕捉和多层次实体标注，以提高模型对学术文本中机器学习模型和数据集提及的理解。此数据集适用于信息检索、科学知识挖掘、自动化文献分析和知识图谱创建等领域，有助于提升相关领域的研究效率和深度。

The GSAP-NER dataset was developed by GESIS – Leibniz Institute for the Social Sciences, focusing on academic entity extraction for machine learning models and datasets. It consists of 100 manually annotated full-text scientific publications, containing over 54,000 entity mentions in total. This dataset aims to address the shortcomings of existing datasets in handling fine-grained entity types. During its creation process, special emphasis was placed on capturing informal entity mentions and implementing multi-level entity annotation, so as to improve models' ability to recognize mentions of machine learning models and datasets in academic texts. The dataset is applicable to fields such as information retrieval, scientific knowledge mining, automated literature analysis, and knowledge graph construction, and can help enhance the research efficiency and depth of relevant domains.

提供机构：

GESIS - 莱布尼茨社会科学研究所

创建时间：

2023-11-16

搜集汇总

数据集介绍

构建方式

在学术信息抽取领域，针对机器学习模型与数据集的细粒度实体识别长期面临标注数据匮乏的挑战。GSAP-NER数据集的构建采用了系统化的全流程设计：首先从arXiv开放获取平台中，依据流行度与多样性双重标准，精心筛选了100篇计算机科学领域的全文出版物。流行度样本通过追踪HuggingFace平台高下载量模型关联的论文获得，多样性样本则通过关键词与时间窗口过滤后随机抽取。所有文本均经过专业标注人员基于定制化的10类实体标签体系进行人工标注，并特别支持嵌套标注与非正式提及的识别，最终形成了包含54,598个标注跨度的高质量语料库。

特点

该数据集的核心特征体现在其细粒度实体分类与丰富的标注维度上。相较于传统学术NER数据集将机器学习模型笼统归类为“方法”，GSAP-NER明确区分了“MLModel”（可执行模型实例）、“ModelArchitecture”（模型架构概念）与“MLModelGeneric”（非正式提及）等独立类型。同样，数据集相关实体也细分为“Dataset”、“DataSource”与“DatasetGeneric”。这种精细划分能更准确地反映学术文本中模型与数据使用的复杂语境。此外，数据集全面标注了全文而非仅摘要，并包含大量嵌套实体与指代信息，为共指消解等深层语言理解任务提供了宝贵资源。

使用方法

该数据集主要服务于基于机器学习的命名实体识别模型训练与评估。研究者可采用经典的“预训练-微调”范式，利用SciBERT、RoBERTa或SciDeBERTa等预训练语言模型在GSAP-NER上进行下游任务微调。数据已按出版物划分为10个交叉验证折，确保模型评估的稳健性。由于标注支持嵌套实体，实践中可采用双模型策略分别处理通用提及与具体命名实体，或将其转化为序列标注任务。该数据集可直接用于提升学术文献中模型与数据集实体的自动抽取精度，进而支撑科学知识图谱构建、文献计量分析、智能检索系统等应用。

背景与挑战

背景概述

在学术信息抽取领域，针对机器学习模型与数据集的细粒度实体识别长期面临标注资源匮乏的困境。2023年，德国莱布尼茨社会科学研究所与杜塞尔多夫大学联合发布了GSAP-NER数据集，该资源包含100篇计算机科学领域全文文献的手工标注，涵盖10类与机器学习模型及数据集密切相关的实体类型。该数据集的创建旨在突破现有学术实体识别数据集中将机器学习模型笼统归类为“方法”、数据集简单视为“材料”的局限性，通过引入模型架构、通用提及等新型标注维度，为深入理解学术文献中机器学习组件的具体使用模式提供了关键基础设施。

当前挑战

该数据集面临的挑战主要体现在两个层面：在领域问题层面，机器学习模型与数据集在学术文本中常以嵌套结构、非正式提及及多义表述形式出现，例如“BERT”既可指代具体模型实例，亦可表示架构概念，这种语义模糊性对实体边界的精确界定提出了严峻考验。在构建过程层面，全文标注需处理PDF转换中的格式失真问题，同时需协调三位标注者对“模型架构”与“具体模型”等易混淆实体类型达成标注共识，其部分实体类型的标注者间一致性F1值仅达23.7%，反映出细粒度学术实体标注固有的主观判断难题。

常用场景

经典使用场景

在学术信息抽取领域，GSAP-NER数据集为机器学习模型与数据集相关的命名实体识别提供了精细化的标注基准。该数据集通过对计算机科学领域100篇全文出版物进行人工标注，涵盖了MLModel、ModelArchitecture、Dataset等10种实体类型，特别关注了非正式提及和嵌套标注现象。其经典使用场景在于训练和评估能够识别学术文献中机器学习模型实例、架构以及数据集的专用命名实体识别模型，为学术文本的深层语义理解奠定基础。

衍生相关工作

基于GSAP-NER数据集的精细标注，衍生出了一系列专注于学术实体关系抽取与知识融合的研究工作。例如，研究者可在此基础上进一步探索模型-数据集-任务之间的三元组关系抽取，构建更完整的学术知识网络。该数据集也为比较和提升不同预训练语言模型（如SciBERT、RoBERTa、SciDeBERTa-CS）在领域特定NER任务上的性能提供了标准测试平台，推动了如SciDeBERTa-CS等针对科学文本优化的模型发展，并启发了对标注数据规模与模型性能关系的实证研究。

数据集最近研究