MEE
收藏arXiv2022-11-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2211.05955v2
下载链接
链接失效反馈官方服务:
资源简介:
MEE数据集是由俄勒冈大学计算机科学系创建的一个新型多语言事件抽取数据集,旨在解决非英语语言在事件抽取研究中的不足。该数据集包含超过50,000个事件提及,涵盖8种不同语系的语言,包括英语、西班牙语、葡萄牙语、波兰语、土耳其语、印地语、韩语和日语。MEE数据集全面标注了实体提及、事件触发词和事件参数,支持跨语言迁移学习评估。该数据集的应用领域包括问答系统、知识库扩充和文本摘要,旨在提高模型在多语言环境下的性能和泛化能力。
The MEE dataset is a novel multilingual event extraction dataset developed by the Department of Computer Science at the University of Oregon, aimed at addressing the underrepresentation of non-English languages in event extraction research. This dataset contains over 50,000 event mentions, spanning 8 distinct language families including English, Spanish, Portuguese, Polish, Turkish, Hindi, Korean, and Japanese. The MEE dataset comprehensively annotates entity mentions, event triggers, and event arguments, supporting cross-lingual transfer learning evaluation. Its application areas include question answering systems, knowledge base augmentation, and text summarization, with the objective of enhancing model performance and generalization ability in multilingual settings.
提供机构:
俄勒冈大学计算机科学系
创建时间:
2022-11-11
搜集汇总
数据集介绍

构建方式
在信息抽取领域,多语言事件抽取数据集MEE的构建采用了系统化的方法。该数据集基于八种类型学各异的语言,包括英语、西班牙语、葡萄牙语、波兰语、土耳其语、印地语、韩语和日语,从维基百科的事件相关类别中选取文章作为原始语料。为确保标注质量,文章被分割为五个连续句子的文本段,以提供充分的上下文信息。标注过程遵循ACE 2005数据集的实体与事件类型定义,通过三个独立步骤依次标注实体提及、事件触发词和事件论元,并采用众包平台雇佣母语标注者,经过严格测试与翻译指南,最终通过一致性评估确保数据的高质量与可靠性。
特点
MEE数据集展现出多方面的显著特点。其覆盖八种语言,涵盖超过五万个事件提及、四十一万实体提及及三万八千论元,规模远超现有同类数据集。数据集中各语言在实体密度、事件分布及论元角色上呈现显著差异,如葡萄牙语实体密度较高而韩语较低,这为跨语言迁移学习带来挑战。此外,数据集完整标注了实体提及检测、事件检测和事件论元抽取三个子任务,支持文档级论元抽取,且通过共享信息架构实现了跨语言评估,为深度学习方法提供了丰富的训练与测试资源。
使用方法
MEE数据集的使用方法灵活多样,支持单语言与跨语言两种学习设置。在单语言设置中,研究者可将数据按80/10/10的比例划分为训练集、开发集和测试集,用于训练和评估事件抽取模型,如管道方法或联合推理模型(如OneIE和FourIE)。跨语言设置则允许模型在一种语言上训练后,直接在其他语言上测试,以评估其泛化能力。数据集兼容多语言预训练语言模型(如mBERT和XLM-RoBERTa),用户可通过微调超参数优化性能,同时利用语言特定编码器进行对比实验,深入探索多语言事件抽取的挑战与机遇。
背景与挑战
背景概述
事件抽取作为信息抽取领域的核心任务,旨在从文本中识别事件提及及其参与者。长期以来,该领域的研究高度集中于英语等少数语言,导致非英语语言的事件抽取资源严重匮乏。为突破这一局限,俄勒冈大学与Adobe研究院的研究团队于2022年共同推出了多语言事件抽取数据集MEE。该数据集覆盖了英语、西班牙语、葡萄牙语、波兰语、土耳其语、印地语、日语和韩语等八种类型学各异的语言,标注了超过五万个事件提及,全面支持实体提及检测、事件检测和事件论元抽取三项子任务。MEE的构建基于维基百科的多领域文本,继承了ACE 2005数据集的类型体系,并通过严格的众包流程确保标注质量。这一数据集的发布显著拓展了多语言事件抽取的研究边界,为训练数据驱动的深度学习模型提供了宝贵资源,并促进了跨语言迁移学习范式的深入探索。
当前挑战
MEE数据集所应对的核心挑战在于多语言事件抽取的复杂性与资源稀缺性。在领域问题层面,不同语言在句法结构、形态变化和事件表达模式上存在显著差异,导致模型在跨语言泛化时面临性能下降;例如,实验显示基于英语训练的模型在日语测试集上事件论元抽取性能下降超过30%。此外,数据标注本身亦存在诸多难点:首先,需在八种语言中保持标注指南的一致性,同时兼顾语言特有的表达习惯,如土耳其语中多词触发器的处理;其次,针对低资源语言如印地语和韩语,招募合格标注人员并达成高标注者间一致性颇具挑战;最后,数据构建需平衡各语言在话题分布、事件密度和论元角色上的差异,以确保数据集的代表性与公平性。
常用场景
经典使用场景
在信息抽取领域,多语言事件抽取数据集MEE为研究者提供了一个涵盖八种类型学差异语言的标准化评估平台。该数据集通过标注超过五万个事件提及,支持实体提及检测、事件检测和事件论元抽取三个核心子任务的完整流程。其经典使用场景在于为跨语言事件抽取模型的训练与评估提供大规模、高质量的多语言语料,尤其适用于探索语言间的泛化能力与迁移学习效果,推动了事件抽取技术在多语言环境下的系统化研究。
解决学术问题
MEE数据集有效解决了事件抽取研究中非英语语言资源匮乏的核心学术问题。传统事件抽取数据集如ACE 2005仅覆盖少数语言,且规模有限,难以支撑数据驱动的深度学习模型训练。MEE通过整合英语、西班牙语、葡萄牙语、波兰语、土耳其语、印地语、日语和韩语的多领域维基百科文本,提供了统一的标注框架和丰富的语言多样性,使得研究者能够深入探究语言特异性挑战、跨语言迁移中的性能下降原因,以及多语言预训练模型在事件抽取任务中的适应性问题。
衍生相关工作
MEE数据集的发布催生了一系列围绕多语言事件抽取的经典研究工作。例如,基于MEE的评估推动了如FourIE等联合推理模型的优化,这些模型通过图卷积网络捕获跨任务依赖,显著提升了论元抽取性能。同时,该数据集激发了跨语言对抗训练、零样本事件论元抽取等新方法的探索,如Guzman-Nateras等人利用对抗训练增强跨语言事件检测的鲁棒性。这些衍生工作不仅深化了对语言间差异的理解,也为低资源语言的事件抽取提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



