five

MAVEN-ERE

收藏
arXiv2022-11-14 更新2024-06-21 收录
下载链接:
https://github.com/THU-KEG/MAVEN-ERE
下载链接
链接失效反馈
官方服务:
资源简介:
MAVEN-ERE是由清华大学构建的统一大规模事件关系数据集,涵盖了4480篇英文维基百科文档,旨在解决现有数据集规模小和缺乏统一标注的问题。该数据集包含超过10万条事件共指链、120万条时间关系、近6万条因果关系和1.5万条子事件关系,远超现有数据集的规模。MAVEN-ERE通过精细的标注方案,支持事件共指、时间、因果和子事件关系的联合提取,为自然语言处理中的复杂事件关系理解提供了强有力的数据支持。

MAVEN-ERE is a unified large-scale event relation dataset constructed by Tsinghua University, covering 4,480 English Wikipedia documents. It aims to address the issues of small scale and lack of unified annotation in existing datasets. This dataset contains over 100,000 event coreference chains, 1.2 million temporal relations, nearly 60,000 causal relations and 15,000 sub-event relations, which far exceeds the scale of existing datasets. With a meticulous annotation scheme, MAVEN-ERE supports the joint extraction of event coreference, temporal, causal and sub-event relations, providing robust data support for complex event relation understanding in natural language processing.
提供机构:
清华大学
创建时间:
2022-11-14
搜集汇总
数据集介绍
main_image_url
构建方式
MAVEN-ERE 数据集的构建基于先前构建的 MAVEN 数据集,该数据集包含 4,480 篇英语维基百科文档和 168 种细粒度事件类型。MAVEN-ERE 通过对同一文档中四种事件关系(事件共指、时间关系、因果关系和子事件关系)进行标注,弥补了现有数据集缺乏统一标注的问题。数据集构建过程中,首先进行事件共指关系的标注,然后标注时间关系,采用了一种新的时间线标注方案,减少了标注工作量,并得到了更密集的标注结果。最后,同时标注因果关系和子事件关系,并利用时间关系和关系传递性来减少标注工作量。
特点
MAVEN-ERE 数据集具有以下特点:1. 规模庞大:包含 103,193 个事件共指链、1,216,217 个时间关系、57,992 个因果关系和 15,841 个子事件关系,是现有数据集中所有事件关系任务规模至少一个数量级的扩展。2. 统一标注:在同一文档中标注了四种事件关系,使得模型能够充分利用关系之间的交互。3. 长距离关系:包含更多长距离时间关系和因果关系,有助于理解和处理文档中的长距离事件对。4. 数据不平衡:保留了现实世界数据分布的不平衡性,为未来时间关系抽取研究提出了新的挑战。
使用方法
MAVEN-ERE 数据集的使用方法如下:1. 数据准备:下载 MAVEN-ERE 数据集,并进行预处理,包括数据清洗、格式转换等。2. 模型训练:选择合适的预训练语言模型,如 RoBERTaBASE,并构建分类模型进行事件关系抽取任务的训练。3. 模型评估:在 MAVEN-ERE 数据集上进行模型评估,使用 MUC、B3、CEAFe 和 BLANC 等指标评估事件共指关系抽取效果,使用精确率、召回率和 F1 值评估其他三种事件关系抽取效果。4. 模型优化:根据评估结果对模型进行优化,例如调整超参数、尝试联合训练等方法。5. 应用探索:将 MAVEN-ERE 数据集应用于事件理解、事件问答等自然语言处理任务,并进行相关研究。
背景与挑战
背景概述
MAVEN-ERE数据集的研究背景可追溯至事件关系抽取(ERE)任务在自然语言处理(NLP)领域的重要性。事件关系,包括共指、时间、因果和子事件关系,对于理解自然语言至关重要。然而,现有的数据集存在两个主要问题:数据规模小,以及缺乏统一标注。MAVEN-ERE数据集的创建旨在解决这些问题。该数据集由王晓智、陈玉林、丁宁等研究人员构建,基于先前的MAVEN数据集,包含4,480篇英语维基百科文档和168种细粒度事件类型。MAVEN-ERE数据集包含103,193个事件共指链、1,216,217个时间关系、57,992个因果关系和15,841个子事件关系,比现有数据集大一个数量级以上。该数据集的创建为ERE任务的研究和应用提供了重要的资源,并推动了联合ERE方法的开发。
当前挑战
MAVEN-ERE数据集面临的挑战包括:1)领域问题的挑战:事件关系抽取任务本身具有复杂性,需要模型能够理解和处理事件之间的复杂关系。2)构建过程中的挑战:由于标注复杂性,数据集的构建需要大量的人工标注工作,且需要设计高效的标注方法。MAVEN-ERE数据集通过引入新的标注方法,如时间轴标注方案,以及利用关系传递性来减少标注工作量,从而克服了这些挑战。此外,该数据集还面临数据不平衡的挑战,例如时间关系类型之间的不平衡分布,这为未来事件关系抽取研究提出了新的挑战。
常用场景
经典使用场景
MAVEN-ERE 数据集是一个统一的大型事件关系抽取数据集,包含了事件共指、时间、因果和子事件关系。其经典使用场景包括:事件共指消解,用于识别文本中指代同一事件的提及;时间关系抽取,用于识别事件之间的时间顺序;因果事件抽取,用于识别事件之间的因果关系;子事件关系抽取,用于识别事件之间的层级结构。这些场景对于自然语言理解、事件抽取、信息检索和问答系统等任务具有重要意义。
实际应用
MAVEN-ERE 数据集在实际应用中具有广泛的应用前景。例如,它可以用于构建事件图,用于可视化事件之间的关系;可以用于事件问答系统,用于回答关于事件之间关系的复杂问题;可以用于信息检索系统,用于检索与特定事件相关的信息。此外,MAVEN-ERE 数据集还可以用于训练其他自然语言处理任务,例如文本摘要、机器翻译和情感分析等。
衍生相关工作
MAVEN-ERE 数据集的发布促进了事件关系抽取领域的进一步研究。基于 MAVEN-ERE 数据集,研究人员开发了新的事件关系抽取模型,并取得了显著的性能提升。此外,MAVEN-ERE 数据集还被用于研究事件关系抽取的其他方面,例如事件关系抽取的可解释性和事件关系抽取的跨语言问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作