five

EDeR

收藏
arXiv2023-04-04 更新2024-06-21 收录
下载链接:
https://github.com/RichieLee93/EDeR
下载链接
链接失效反馈
官方服务:
资源简介:
EDeR数据集是由澳大利亚国立大学和腾讯AI实验室合作创建的,专注于探索事件间依赖关系。该数据集包含11,852个高质量标注样本,基于OntoNotes数据集的文档样本,通过多级质量检查方法进行标注。EDeR数据集旨在解决事件依赖关系的自动分类问题,并已应用于事件提取和共指消解等下游任务,显著提升了这些任务的性能。

The EDeR dataset, co-created by The Australian National University and Tencent AI Lab, focuses on exploring dependencies between events. It contains 11,852 high-quality annotated samples derived from document samples of the OntoNotes dataset, which were annotated via a multi-level quality inspection methodology. The EDeR dataset is designed to address the automatic classification of event dependencies, and has been applied to downstream tasks such as event extraction and coreference resolution, significantly improving the performance of these tasks.
提供机构:
澳大利亚国立大学
创建时间:
2023-04-04
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式采用了基于多级质量检查的标注方法。首先,从OntoNotes数据集中随机抽取了275篇文档,涵盖了7个不同的体裁。然后,从这些文档中提取了候选事件对,其中包含一个事件的谓词在另一个事件的论元跨度内。经过预处理后,共有11,852个候选事件对用于人工标注。标注过程分为三个阶段,每个阶段后,质量检查员和语言专家会对标注结果进行检查和修正。最终,构建了包含11,852个高质量标注样本的事件依赖关系数据集(EDeR),并根据事件关系分类体系进行了标注。
特点
该数据集的主要特点是提供了事件之间的依赖关系信息,包括必要论元、可选论元和非论元。与现有的事件关系数据集相比,EDeR数据集关注事件作为另一个事件的论元这一重要关系,并区分了必要论元和可选论元。此外,该数据集还提供了精炼的事件表示,通过人工标注和自动化方法对包含的事件进行修订,使事件表示更加准确。
使用方法
该数据集可用于事件依赖关系预测、事件表示提取和指代消解等下游任务。在事件依赖关系预测方面,可以使用各种文本分类模型,包括基于启发式规则的方法和基于Transformer预训练模型的微调方法。在事件表示提取方面,可以将事件依赖关系信息与语义角色标注系统相结合,生成更准确的事件表示。在指代消解方面,可以使用精炼的事件表示作为输入,提高指代消解模型的性能。
背景与挑战
背景概述
事件在自然语言处理 (NLP) 和信息检索 (IR) 研究中扮演着至关重要的角色,它们提供有关发生了什么以及涉及哪些实体的信息。然而,现有的 NLP 和 IR 研究尚未充分探索事件之间的关系,特别是当一个事件作为另一个事件的论元(必需或可选)时。为了填补这一空白,Li 等人于 2023 年 4 月引入了人类标注的事件依赖关系数据集 (EDeR),该数据集基于 OntoNotes 数据集的文档样本,并与其现有注释集成。EDeR 数据集旨在研究预测事件依赖关系的方法,并探索其对于事件提取、语义角色标注 (SRL) 和共指消解等下游任务的潜在影响。
当前挑战
EDeR 数据集的研究背景包括探索事件之间的依赖关系,这需要解决两个主要挑战。首先,事件之间的依赖关系类型繁多,包括必需论元、可选论元和非论元等,这使得预测任务变得更加复杂。其次,事件之间的依赖关系往往隐含在复杂的句子结构中,需要模型具备较强的推理能力才能准确识别。此外,构建过程中还遇到了数据收集和标注的挑战,例如事件对的选择、事件表示的修订以及标注人员的培训和质量控制等。
常用场景
经典使用场景
在自然语言处理(NLP)和信息检索(IR)领域,关系抽取是一项核心任务。EDeR 数据集致力于探索事件之间的依赖关系,即一个事件作为另一个事件必需或可选的论元。该数据集基于 OntoNotes 数据集的样本文档进行人工标注,并与该数据集现有的正交标注相结合。EDeR 数据集可用于研究事件依赖关系预测的基线方法,并已取得82.61%的准确率。此外,该数据集还可以用于指导事件抽取(语义角色标注)和改善下游任务,例如共指消解。
实际应用
EDeR 数据集的实际应用场景包括:1) 指导事件表示抽取,例如使用 CRFSRL 系统生成事件表示,并通过事件依赖关系信息进行优化,以提高事件抽取的准确性;2) 改善共指消解任务,例如使用 corefHGAT 模型进行共指消解,并通过事件依赖关系信息进行优化,以提高共指消解的准确性。此外,EDeR 数据集还可以用于研究事件依赖关系预测的更细粒度分类任务,例如区分必需论元、可选论元和非论元。
衍生相关工作
EDeR 数据集衍生了以下相关工作:1) 事件表示抽取,例如使用 CRFSRL 系统进行事件表示抽取,并通过事件依赖关系信息进行优化;2) 共指消解,例如使用 corefHGAT 模型进行共指消解,并通过事件依赖关系信息进行优化;3) 事件依赖关系预测的细粒度分类,例如区分必需论元、可选论元和非论元。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作