five

GENEVA

收藏
arXiv2023-06-01 更新2024-06-21 收录
下载链接:
https://github.com/PlusLabNLP/GENEVA
下载链接
链接失效反馈
官方服务:
资源简介:
GENEVA是一个用于事件参数提取(EAE)模型泛化能力评估的数据集,由加州大学洛杉矶分校计算机科学系创建。该数据集包含115种事件类型和220种参数角色,显著特点是包含大量非实体参数角色。数据集通过将FrameNet数据集转换并结合人工专家注释构建,旨在评估模型在处理有限数据和未见事件类型泛化方面的能力。GENEVA的应用领域包括知识图谱构建、问答系统等,旨在解决现有数据集在事件类型和参数角色多样性上的不足。

GENEVA is a dataset for evaluating the generalization capability of event argument extraction (EAE) models, developed by the Department of Computer Science at the University of California, Los Angeles. This dataset includes 115 event types and 220 argument roles, with a prominent characteristic being the presence of a large number of non-entity argument roles. It is constructed by converting the FrameNet dataset and combining it with manual expert annotations, aiming to assess models' capacity for generalization under limited data scenarios and to unseen event types. The application areas of GENEVA cover knowledge graph construction, question answering systems, and so on, and it is designed to address the deficiencies of existing datasets in terms of the diversity of event types and argument roles.
提供机构:
加州大学洛杉矶分校计算机科学系
创建时间:
2022-05-25
搜集汇总
数据集介绍
main_image_url
构建方式
在事件论元抽取领域,现有基准数据集如ACE和ERE在事件类型与论元角色的覆盖范围上存在局限,难以全面评估模型的泛化能力。GENEVA数据集的构建创新性地利用了语义角色标注数据集FrameNet的丰富资源,通过精心设计的人工专家标注流程,将FrameNet的语义框架映射为事件论元抽取的本体。具体而言,研究团队首先基于MAVEN事件检测数据集的事件映射,构建了包含115种事件类型的事件本体;随后,通过多轮专家标注,对FrameNet中的框架元素进行筛选、合并与分类,形成了包含220种论元角色(其中37%为非实体角色)的论元本体。最终,利用这一本体将FrameNet的标注数据转化为GENEVA数据集,并经过严格的人工质量验证,确保了标注的准确性与完整性。
使用方法
GENEVA数据集专为系统评估事件论元抽取模型的泛化能力而设计,提供了四个精心构建的测试套件。在有限训练数据场景下,低资源套件通过随机采样不同数量的训练实例,评估模型从极低资源到中等资源条件下的学习能力;少样本套件则均匀采样所有事件类型的实例,考察模型在不同事件间的均衡表现。针对未见事件数据场景,零样本套件使用数据量最大的若干事件类型进行训练,并在其余事件上测试,以评估模型向全新事件类型的迁移能力;跨类型迁移套件则训练单一抽象类别的事件,测试其他类别事件,检验模型的跨域迁移强度。研究者可利用这些套件,对基于分类、问答或生成的各类EAE模型进行全面的基准测试,深入探究模型在数据稀缺和分布外泛化方面的性能。
背景与挑战
背景概述
事件论元抽取作为自然语言处理领域的一项核心任务,旨在从文本中识别事件的参与者及其语义角色,对于知识图谱构建、问答系统等应用具有重要价值。传统基准数据集如ACE和ERE在事件类型与论元角色的覆盖范围上存在局限,难以全面评估模型的泛化能力。为此,加州大学洛杉矶分校与南加州大学的研究团队于2022年共同创建了GENEVA数据集,其核心研究目标是通过构建一个包含115种事件类型和220种论元角色的大规模、多样化本体,为事件论元抽取模型的泛化性能提供更全面的评估基准。该数据集的推出显著拓展了事件语义的表示边界,特别是引入了大量非实体论元角色,对推动领域向更细粒度、更通用的信息抽取方向发展产生了深远影响。
当前挑战
GENEVA数据集所针对的事件论元抽取任务面临两大核心挑战。其一,在领域问题层面,模型需克服从有限标注数据中学习并泛化到未见事件类型的难题,尤其是在处理大量非实体论元(如抽象概念、事件、属性等)时,传统基于实体识别的模型性能显著下降,最佳模型在零样本设置下的F1分数仅为39%。其二,在构建过程中,研究团队需将FrameNet的语义框架映射为事件论元本体,这一过程涉及大量专家人工标注以筛选和合并框架元素,确保映射的准确性与语义一致性,同时通过多轮验证保障了最终数据集的标注质量与本体逻辑的严密性。
常用场景
经典使用场景
在事件论元抽取领域,GENEVA数据集被广泛用于评估模型在有限数据和未见事件类型下的泛化能力。其经典使用场景包括低资源、少样本、零样本和跨类型迁移四种测试套件,这些设置模拟了现实世界中标注数据稀缺和新事件不断涌现的挑战。研究者通过在这些场景下测试模型性能,能够深入理解模型从少量示例中学习并推广到未知事件的能力,从而推动事件抽取技术向更通用、更鲁棒的方向发展。
解决学术问题
GENEVA数据集主要解决了事件论元抽取中泛化性评估不足的学术问题。传统数据集如ACE和ERE仅覆盖有限的事件类型和实体中心论元角色,缺乏多样性,难以全面衡量模型对新事件和领域的适应能力。GENEVA通过构建包含115种事件类型和220种论元角色的大规模本体,其中37%为非实体论元,显著扩展了评估范围。该数据集揭示了现有模型在非实体论元处理上的薄弱环节,为提升模型跨事件泛化性提供了明确的研究方向。
实际应用
在实际应用中,GENEVA数据集为构建高性能事件抽取系统提供了关键基准。其涵盖的广泛事件类型和论元角色能够支持知识图谱构建、智能问答、信息监控等下游任务。例如,在新闻分析领域,系统需要从文本中提取涉及政治、经济、社会等多方面的事件结构信息;GENEVA的多样性和密度确保了模型能够准确识别复杂事件中的各类参与者,包括非实体论元如原因、方式等,从而生成更完整的事件表示,增强自动化信息处理的可靠性和覆盖度。
数据集最近研究
最新研究方向
在事件论元抽取领域,GENEVA数据集的推出标志着对模型泛化能力评估的范式转变。该数据集通过整合115种事件类型和220种论元角色,特别是包含37%的非实体论元角色,突破了传统数据集如ACE和ERE的局限性,后者仅覆盖不足40种事件类型且论元角色局限于实体。当前研究聚焦于利用GENEVA的多样化测试套件——包括低资源、少样本、零样本和跨类型迁移设置——来系统评估生成式模型(如DEGREE)、问答式模型和传统分类模型在未见事件类型和非实体论元上的泛化性能。前沿探索进一步涉及将大型语言模型(如GPT-3.5)应用于零样本场景,揭示其在复杂论元结构抽取中的挑战。这一进展不仅推动了事件抽取技术向更通用、更鲁棒的方向演进,也为构建大规模知识图谱和跨领域信息提取系统提供了关键基准。
相关研究论文
  • 1
    GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles加州大学洛杉矶分校计算机科学系 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作