five

EDeR

收藏
arXiv2023-04-04 更新2024-06-21 收录
下载链接:
https://github.com/RichieLee93/EDeR
下载链接
链接失效反馈
资源简介:
EDeR数据集是由澳大利亚国立大学和腾讯AI实验室合作创建的,专注于探索事件间依赖关系。该数据集包含11,852个高质量标注样本,基于OntoNotes数据集的文档样本,通过多级质量检查方法进行标注。EDeR数据集旨在解决事件依赖关系的自动分类问题,并已应用于事件提取和共指消解等下游任务,显著提升了这些任务的性能。
提供机构:
澳大利亚国立大学
创建时间:
2023-04-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式采用了基于多级质量检查的标注方法。首先,从OntoNotes数据集中随机抽取了275篇文档,涵盖了7个不同的体裁。然后,从这些文档中提取了候选事件对,其中包含一个事件的谓词在另一个事件的论元跨度内。经过预处理后,共有11,852个候选事件对用于人工标注。标注过程分为三个阶段,每个阶段后,质量检查员和语言专家会对标注结果进行检查和修正。最终,构建了包含11,852个高质量标注样本的事件依赖关系数据集(EDeR),并根据事件关系分类体系进行了标注。
特点
该数据集的主要特点是提供了事件之间的依赖关系信息,包括必要论元、可选论元和非论元。与现有的事件关系数据集相比,EDeR数据集关注事件作为另一个事件的论元这一重要关系,并区分了必要论元和可选论元。此外,该数据集还提供了精炼的事件表示,通过人工标注和自动化方法对包含的事件进行修订,使事件表示更加准确。
使用方法
该数据集可用于事件依赖关系预测、事件表示提取和指代消解等下游任务。在事件依赖关系预测方面,可以使用各种文本分类模型,包括基于启发式规则的方法和基于Transformer预训练模型的微调方法。在事件表示提取方面,可以将事件依赖关系信息与语义角色标注系统相结合,生成更准确的事件表示。在指代消解方面,可以使用精炼的事件表示作为输入,提高指代消解模型的性能。
背景与挑战
背景概述
事件在自然语言处理 (NLP) 和信息检索 (IR) 研究中扮演着至关重要的角色,它们提供有关发生了什么以及涉及哪些实体的信息。然而,现有的 NLP 和 IR 研究尚未充分探索事件之间的关系,特别是当一个事件作为另一个事件的论元(必需或可选)时。为了填补这一空白,Li 等人于 2023 年 4 月引入了人类标注的事件依赖关系数据集 (EDeR),该数据集基于 OntoNotes 数据集的文档样本,并与其现有注释集成。EDeR 数据集旨在研究预测事件依赖关系的方法,并探索其对于事件提取、语义角色标注 (SRL) 和共指消解等下游任务的潜在影响。
当前挑战
EDeR 数据集的研究背景包括探索事件之间的依赖关系,这需要解决两个主要挑战。首先,事件之间的依赖关系类型繁多,包括必需论元、可选论元和非论元等,这使得预测任务变得更加复杂。其次,事件之间的依赖关系往往隐含在复杂的句子结构中,需要模型具备较强的推理能力才能准确识别。此外,构建过程中还遇到了数据收集和标注的挑战,例如事件对的选择、事件表示的修订以及标注人员的培训和质量控制等。
常用场景
经典使用场景
在自然语言处理(NLP)和信息检索(IR)领域,关系抽取是一项核心任务。EDeR 数据集致力于探索事件之间的依赖关系,即一个事件作为另一个事件必需或可选的论元。该数据集基于 OntoNotes 数据集的样本文档进行人工标注,并与该数据集现有的正交标注相结合。EDeR 数据集可用于研究事件依赖关系预测的基线方法,并已取得82.61%的准确率。此外,该数据集还可以用于指导事件抽取(语义角色标注)和改善下游任务,例如共指消解。
实际应用
EDeR 数据集的实际应用场景包括:1) 指导事件表示抽取,例如使用 CRFSRL 系统生成事件表示,并通过事件依赖关系信息进行优化,以提高事件抽取的准确性;2) 改善共指消解任务,例如使用 corefHGAT 模型进行共指消解,并通过事件依赖关系信息进行优化,以提高共指消解的准确性。此外,EDeR 数据集还可以用于研究事件依赖关系预测的更细粒度分类任务,例如区分必需论元、可选论元和非论元。
衍生相关工作
EDeR 数据集衍生了以下相关工作:1) 事件表示抽取,例如使用 CRFSRL 系统进行事件表示抽取,并通过事件依赖关系信息进行优化;2) 共指消解,例如使用 corefHGAT 模型进行共指消解,并通过事件依赖关系信息进行优化;3) 事件依赖关系预测的细粒度分类,例如区分必需论元、可选论元和非论元。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作