MAVEN
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/MAVEN
下载链接
链接失效反馈官方服务:
资源简介:
事件检测(ED),即识别事件触发词并对事件类型进行分类,是从纯文本中提取事件知识的第一步,也是最基本的步骤。大多数现有数据集都存在以下限制 ED 进一步发展的问题:(1)数据稀缺。现有的小规模数据集不足以训练和稳定地对日益复杂的现代神经方法进行基准测试。 (2) 覆盖率低。现有数据集有限的事件类型不能很好地覆盖一般领域的事件,这限制了 ED 模型的应用。为了缓解这些问题,我们提出了一个 MAssive eVENt 检测数据集 (MAVEN),其中包含 4,480 个 Wikipedia 文档、118,732 个事件提及实例和 168 个事件类型。 MAVEN 缓解了数据稀缺问题并涵盖了更一般的事件类型。我们再现了最近最先进的 ED 模型,并对 MAVEN 进行了彻底的评估。实验结果表明,现有的 ED 方法无法像在小型数据集上那样在 MAVEN 上取得有希望的结果,这表明现实世界中的 ED 仍然是一项具有挑战性的任务,需要进一步的研究工作。我们还通过实证分析讨论了一般领域 ED 的进一步方向。源代码和数据集可以从 https://github.com/THU-KEG/MAVEN-dataset 获得。
提供机构:
OpenDataLab
创建时间:
2022-05-23



