SciEvents

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/DataHammer/SciEvents

下载链接

链接失效反馈

官方服务：

资源简介：

SciEvents 数据集是一个专注于科学领域复杂事件抽取的数据集，旨在支持事件抽取（EE）及其他自然语言处理任务。数据集包含训练集（train.json）、开发集（dev.json）和测试集（test.json），每份数据记录了学术论文的基本信息（如标题、摘要、发表年份等）以及从摘要中提取的句子和事件。事件数据采用特定格式，包括事件类型、触发词（trigger）和论据（arguments），其中论据进一步细分为文本、nugget类型、论据类型、词元及偏移量。此外，数据集提供了本体文件（ontology.json），定义了事件类型及其论据的约束条件，包括nugget类型（非必需）和论据类型。数据集适用于事件抽取任务，并可通过自定义本体文件扩展兼容性。

The SciEvents dataset is a dataset focused on complex event extraction in the scientific domain, designed to support event extraction (EE) and other natural language processing tasks. The dataset includes training set (train.json), development set (dev.json), and test set (test.json), each containing basic information of academic papers (such as title, abstract, publication year, etc.) and sentences and events extracted from the abstracts. The event data follows a specific format, including event type, trigger, and arguments, with arguments further divided into text, nugget type, argument type, token, and offset. Additionally, the dataset provides an ontology file (ontology.json) that defines the constraints of event types and their arguments, including nugget type (optional) and argument type. The dataset is suitable for event extraction tasks and can be extended for compatibility through custom ontology files.

创建时间：

2026-04-24

原始信息汇总

SciEvents 数据集概述

基本信息

数据集名称：SciEvents
许可/来源：ACL 会议论文数据，年份范围为 2019–2022

数据内容

数据集包含三个文件：train.json、dev.json 和 test.json，每个文件对应一个文档集合。

单篇文档结构

字段	类型	说明
`venue`	字符串	会议名称（当前均为 ACL）
`title`	字符串	论文标题
`abstract`	字符串	论文原始摘要
`doc_id`	字符串	文档唯一标识
`publication_year`	整数	出版年份（2019–2022）
`sentences`	字符串列表	从摘要中切分的句子
`events`	列表	SciEvents 格式的事件标注
`document`	字符串列表	摘要的 Token 级别表示（可用于定位偏移量）

事件结构 (`events` 字段)

每个事件包含以下要素：

字段	类型	说明
`event_type`	字符串	事件类型，受本体约束
`arguments`	列表	事件参数列表
`trigger`	字典	触发词信息

每个参数包含：

text (字符串)：参数文本
nugget_type (字符串)：金块类型（可选，受本体约束）
argument_type (字符串)：参数类型，受本体约束
tokens (字符串列表)：参数的所有 Token
offsets (整数列表)：与 tokens 长度相同的偏移量

触发词 (trigger) 同样包含 text、tokens 和 offsets 字段。

本体结构 (`ontology.json`)

本体文件定义了数据集的约束结构：

nugget_types：字符串列表，表示所有可能出现的金块类型
event_types：字典，键为事件类型，值为该事件类型下各参数所允许的金块类型列表

兼容性说明

如果仅为事件抽取任务使用，金块类型（nugget_types）非必需，其值可设为空列表 []。

推荐引用

如果使用该数据集，请引用以下论文：

论文标题：EXCEEDS: Extracting Complex Events via Nugget-based Grid Modeling in Scientific Domain
论文链接：https://arxiv.org/abs/2406.14075

搜集汇总

数据集介绍

构建方式

SciEvents数据集是面向科学文献领域的事件抽取基准资源，其构建基于ACL会议论文的标题、摘要及元数据。每篇文档以句子级粒度呈现，并关联经过本体约束的标注事件。事件结构中包含触发词与多类型论元，每个论元进一步配备细粒度的nugget类型标签，以提升事件结构的语义表达能力。数据划分涵盖训练集、验证集与测试集，时间跨度覆盖2019至2022年，确保了领域内时序多样性与事件类型的代表性。

特点

该数据集的核心特点在于其融合了双层本体约束：事件类型与论元类型均由预定义本体严格限定，同时引入可选的nugget类型系统，为论元提供更细致的语义修饰。这种设计不仅支持标准的事件抽取任务，还可通过nugget信息增强模型对复杂事件结构的理解。此外，数据以token级偏移和分句形式存储，便于序列标注与端到端模型的直接应用，兼顾了灵活性与兼容性。

使用方法

用户可直接加载提供的train.json、dev.json与test.json文件，利用其中句子列表与事件标注进行事件抽取模型的训练与评估。本体文件ontology.json定义了事件类型与论元约束，支持用户自定义扩展nugget类型以适配新任务。数据集也兼容EXCEEDS等进阶框架，通过忽略nugget类型可快速适配传统事件抽取流程。引用时请参考附带论文以获取更详细的建模方法论与实验配置。

背景与挑战

背景概述

在自然语言处理与科学文献挖掘的交叉领域中，事件抽取（Event Extraction, EE）任务是理解科研动态与知识结构的关键技术。SciEvents数据集由陆一帆、毛先领、王波、刘潇及黄河燕等研究人员于2026年发布，聚焦于科学文献中的复杂事件抽取。该数据集以ACL会议论文为数据源，覆盖2019至2022年间的研究成果，核心研究问题在于构建一个细粒度、多类型事件标注的基准资源，以推动科学领域事件理解的发展。通过引入基于“小块”（nugget）的网格建模方法（EXCEEDS），SciEvents不仅提供了丰富的事件类型与参数约束，还定义了触发词与论元的层级结构，对事件抽取领域的范式演进产生了积极影响。

当前挑战

SciEvents数据集所解决的领域问题主要来自于科学文献中事件的复杂性与多样性，例如在自然语言理解中，如何准确捕捉隐含的因果关系、比较关系等离散事件，而传统的事件抽取方法往往难以处理这些原子事件间的嵌套与交织。在构建过程中，数据集面临多重挑战：首先，科学文本的专业术语与抽象表达增加了标注一致性维护的难度，需设计精细的论元小块类型来规范标注行为；其次，不同事件类型对应的参数集合差异显著，要求本体设计既能覆盖广泛场景，又保持结构清晰；此外，从非结构化摘要中提取事件时，论元边界与触发词偏移的精准定位也构成技术难题，需借助多层级的令牌级表示来缓解歧义问题。

常用场景

经典使用场景

SciEvents数据集专为科学领域的事件抽取（Event Extraction）任务而设计，其经典使用场景聚焦于从学术文献的摘要文本中识别并结构化复杂事件。每个样本包含论文标题、摘要、句子分割及其标注的事件，事件由触发词（trigger）和多个论元（argument）构成，论元还附有特定的子类型（nugget_type）。研究者可基于该数据集训练模型，自动解析科学文本中隐含的动态过程，如实验方法、结果发现或技术突破，从而将非结构化文本转化为结构化知识图谱，服务于科学文献的深度挖掘与知识推理。

实际应用

在实际应用中，SciEvents可赋能学术知识图谱构建、科技情报自动分析和研究趋势追踪系统。例如，科研机构可利用基于该数据集训练的模型，从海量论文摘要中自动提取关键技术事件（如‘提出了新算法’、‘实现了性能提升’），并关联论元（如方法名称、性能指标），从而快速梳理领域发展脉络。此外，该数据集还可用于辅助学术搜索引擎优化，支持用户按事件类型（如‘实验发现’、‘理论验证’）检索文献，提升科研效率。其应用场景广泛延伸至文献综述生成、交叉学科洞察等前沿方向。

衍生相关工作

SciEvents数据集的提出衍生了一系列经典工作，包括基于网格建模的复杂事件抽取框架EXCEEDS（见原论文），该框架通过引入子类型（nugget）作为中间表示，提升了事件论元定位的准确性。后续研究进一步探索了将SciEvents与预训练语言模型（如BERT、SciBERT）结合，设计事件提示学习（prompt-based learning）方法，以适应低资源场景下的科学事件抽取。此外，该数据集催生了跨领域事件抽取元学习基准，研究者利用其本体迁移至生物医学、材料科学等实验密集型学科。这些工作共同推动了事件抽取从通用域向科学专域的纵深发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集