SciNLP

Name: SciNLP
Creator: 南京理工大学,苏州大学
Published: 2025-09-10 20:09:56
License: 暂无描述

arXiv2025-09-10 更新2025-09-11 收录

下载链接：

https://github.com/shauryr/ACL-anthology-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

SciNLP是一个专门用于自然语言处理（NLP）领域中全文科学实体和关系抽取的基准数据集。该数据集包含60篇经过人工标注的全文NLP出版物，涵盖了7072个实体和1826个关系。SciNLP是第一个提供NLP领域全文实体及其关系标注的数据集。为了验证SciNLP的有效性，研究者们进行了与类似数据集的比较实验，并评估了在该数据集上最先进的监督模型的表现。实验结果表明，现有模型在不同长度的学术文本中表现出不同的抽取能力。与现有数据集的交叉比较表明，SciNLP在特定基线模型上实现了显著的性能提升。使用在SciNLP上训练的模型，研究者们实现了NLP领域的细粒度知识图的自动构建。知识图具有平均每个实体的节点度为3.2，表明其丰富的语义拓扑信息，从而增强了下游应用。

SciNLP is a benchmark dataset specifically tailored for full-text scientific entity and relation extraction within the Natural Language Processing (NLP) domain. This dataset comprises 60 manually annotated full-text NLP publications, encompassing a total of 7072 entities and 1826 relational pairs. To the best of our knowledge, SciNLP is the first dataset to offer annotated full-text entities and their relational pairs in the NLP field. To validate the effectiveness of SciNLP, researchers carried out comparative experiments against similar datasets and evaluated the performance of state-of-the-art supervised models on this dataset. Experimental results reveal that existing models demonstrate varying extraction performance across academic texts of different lengths. Cross-dataset comparisons further demonstrate that SciNLP achieves substantial performance improvements over specific baseline models. By leveraging models trained on SciNLP, researchers have successfully realized the automatic construction of fine-grained knowledge graphs within the NLP domain. These knowledge graphs boast an average node degree of 3.2 per entity, reflecting their rich semantic topological information and thereby enhancing the performance of downstream applications.

提供机构：

南京理工大学,苏州大学

创建时间：

2025-09-09

原始信息汇总

ACL Anthology Corpus 数据集概述

数据集简介

ACL Anthology Corpus 是一个包含计算语言学领域 ACL 文集全文和元数据的综合语料库，截至 2022 年 9 月，涵盖 80,013 篇论文/海报，提供 PDF 文件及 GROBID 提取内容。

数据集内容

PDF 文件：所有 ACL 文集的 PDF 文件，大小 45G。
Bib 文件：包含摘要的 ACL 文集 Bib 文件，大小 172M。
GROBID 提取结果：从 PDF 中提取的全文和参考文献等原始数据，大小 3.6G。
元数据数据框：包含提取的元数据和全文的分析用数据，大小 489M。

元数据字段

字段名	描述
`acl_id`	唯一 ACL ID
`abstract`	GROBID 提取的摘要
`full_text`	GROBID 提取的全文
`corpus_paper_id`	Semantic Scholar ID
`pdf_hash`	PDF 的 SHA1 哈希值
`numcitedby`	Semantic Scholar 提供的引用次数
`url`	出版物链接
`publisher`	出版商
`address`	会议地址
`year`	年份
`month`	月份
`booktitle`	书籍标题
`author`	作者列表
`title`	论文标题
`pages`	页码
`doi`	DOI
`number`	编号
`volume`	卷号
`journal`	期刊名称
`editor`	编辑
`isbn`	ISBN

数据访问

数据集最新版本托管于 Hugging Face：https://huggingface.co/datasets/ACL-OCL/acl-anthology-corpus

许可信息

数据集采用 CC BY-NC 4.0 许可协议：https://creativecommons.org/licenses/by-nc/4.0/

引用方式

bibtex @Misc{acl_anthology_corpus, author = {Shaurya Rohatgi}, title = {ACL Anthology Corpus with Full Text}, howpublished = {Github}, year = {2022}, url = {https://github.com/shauryr/ACL-anthology-corpus} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，科学文献的结构化信息抽取对捕捉核心概念与新兴趋势至关重要。SciNLP数据集的构建采用系统化流程，首先从ACL Anthology平台收集2001至2024年间的82,672篇全文论文，通过GROBID工具解析PDF并提取元数据。基于分层抽样原则，从中精选60篇ACL长论文作为标注样本集。标注过程依托Doccano平台，由领域专家制定细粒度标注规范，定义4类实体（任务、模型、数据集、指标）和11类关系（如测量于、用于、训练于等）。采用两阶段标注策略：专家先进行试点标注并优化指南，再由5名研究生独立完成双人标注，实体与关系标注的Cohen's kappa系数分别达0.90和0.75以上，确保标注一致性与高质量。

特点

SciNLP作为自然语言处理领域首个全文标注的实体与关系抽取基准，其核心特点体现在三方面：一是全文覆盖性，突破现有数据集仅标注摘要或片段的局限，完整保留跨段落语义依赖与长距离推理上下文；二是领域特异性，针对NLP研究范式设计细粒度本体框架，涵盖模型、任务等4类实体及增强、比较等11类关系，精准刻画方法演进与评估动态；三是标注丰富性，包含7,072个实体和1,826个关系，平均每篇文献121个实体和31个关系，显著高于同类数据集如SCIERC，为复杂语义拓扑建模提供坚实基础。

使用方法

SciNLP数据集支持端到端实体与关系联合抽取任务，其使用方法遵循标准化实验范式。输入单元为完整学术文献，模型需从多句子序列中识别实体边界与类型，并分类实体间语义关系。评估框架包含严格指标：实体识别采用跨度匹配准则，关系抽取区分边界感知（Rel）与严格类型（Rel+）指标，并支持纯关系分类（RE）任务。数据集按8:1:1比例划分为训练、验证与测试集，兼容流水线与联合学习范式，如PURE、PL-Marker等模型。此外，该数据可用于构建NLP细粒度知识图谱，通过实体归一化与关系链接，支持下游应用如学术问答与技术趋势分析。

背景与挑战

背景概述

科学文献的结构化信息抽取对于捕捉专业领域的核心概念与新兴趋势具有关键意义。2025年由南京理工大学与苏州大学联合发布的SciNLP数据集，作为自然语言处理领域首个全文本标注的实体与关系抽取基准，填补了现有资源局限于摘要或特定章节的空白。该数据集包含60篇ACL会议长文（2001–2024年）的手工标注，涵盖7,072个细粒度实体与1,826组复杂关系，其全文本标注范式显著提升了模型对长程依赖与隐式关系的捕获能力，为NLP知识图谱构建与学术趋势分析提供了坚实基础。

当前挑战

SciNLP致力于解决自然语言处理领域全文本科学实体与关系抽取的复杂性挑战：其一，科学文本包含高度专业化的术语系统与跨学科差异，实体嵌套与语义重叠现象普遍，要求标注者具备深厚领域知识；其二，全文本标注需处理跨段落语境依赖与隐式逻辑关联，远超摘要级标注的难度。构建过程中，面临标注成本高昂、结构性解析误差（如Grobid工具局限性）以及领域特异性与标注规模间的平衡难题，这些因素共同制约了数据集的扩展性与泛化能力。

常用场景

经典使用场景

在自然语言处理领域的信息抽取研究中，SciNLP数据集被广泛应用于全文本科学实体与关系联合抽取任务。该数据集通过精细标注的60篇ACL会议长文，涵盖7072个实体和1826个关系，为模型提供了丰富的跨段落语义依赖关系。研究者通常利用该数据集训练端到端联合抽取模型，如HGERE和PL-Marker，以捕捉学术文献中方法、任务、数据集和指标之间的复杂交互模式，显著提升了模型对长文本科学逻辑的解析能力。

衍生相关工作

SciNLP催生了多项经典衍生研究：其全文本标注范式启发了SciER等跨领域数据集的建设，推动了文档级关系抽取模型的发展；基于该数据集构建的NLP知识图谱为SCIMON等科学创新发现系统提供了底层支持；其标注框架被Adapted到生物医学等领域，促进了学科特定信息抽取标准的建立。这些工作共同推动了科学文献挖掘从片段处理向全文本理解的范式转变。

数据集最近研究