EEMT

Name: EEMT
Creator: 中国科学院大学计算机科学与技术学院，网络数据科学与技术重点实验室，中国地质大学（武汉）地理信息工程国家重点实验室
Published: 2025-03-04 21:53:43
License: 暂无描述

arXiv2025-03-04 更新2025-03-06 收录

下载链接：

http://arxiv.org/abs/2503.02628v1

下载链接

链接失效反馈

官方服务：

资源简介：

EEMT数据集是由中国科学院大学计算机科学与技术学院等多个机构合作构建的，包含超过20万条样本，涵盖3465种事件类型和6297种角色类型。该数据集通过大规模的语言模型进行协作标注，以解决传统远程监督方法在事件提取中的不足，旨在为大规模事件类型的事件提取提供高质量的标注数据。

The EEMT dataset was collaboratively constructed by multiple institutions including the School of Computer Science and Technology, University of Chinese Academy of Sciences. It contains over 200,000 samples, covering 3,465 event types and 6,297 role types. To address the limitations of traditional distant supervision methods in event extraction, this dataset was annotated via collaborative work with large-scale language models, with the goal of providing high-quality annotated data for event extraction across a wide range of event types.

提供机构：

中国科学院大学计算机科学与技术学院，网络数据科学与技术重点实验室，中国地质大学（武汉）地理信息工程国家重点实验室

创建时间：

2025-03-04

搜集汇总

数据集介绍

构建方式

EEMT数据集的构建方式基于大型语言模型（LLM）的协作注释方法。该方法首先利用远程监督方法对触发词进行预注释，然后通过多个LLM之间的协作，对触发词的注释进行精细化和论证注释。最后，通过投票阶段统一不同LLM之间的注释偏好，构建了包含超过20万个样本、3465个事件类型和6297个角色类型的大型EE数据集。

使用方法

EEMT数据集的使用方法主要包括事件检测（ED）和事件论证提取（EAE）。在ED任务中，模型需要识别事件触发词及其对应类型；在EAE任务中，模型需要提取事件触发词的论证及其相关角色。为了适应LLM在处理大量事件类型时的限制，EEMT数据集采用了一种名为LLM-PEE的分区提取方法，该方法通过将候选事件类型划分为多个分区，并使用LLM进行事件提取，有效地解决了LLM在处理长文本时的局限性。

背景与挑战

背景概述

事件抽取（Event Extraction, EE）旨在从文本中识别结构化的事件信息，包括事件检测（Event Detection, ED）和事件论元抽取（Event Argument Extraction, EAE）两个子任务。EEMT数据集是迄今为止最大的EE数据集，包含超过20万个样本、3465个事件类型和6297个角色类型。该数据集的创建旨在解决现有EE数据集在事件类型和规模上的限制，并提出了基于大型语言模型（LLM）的协作标注方法，通过多个LLM的协作，实现了高效的事件标注。此外，EEMT数据集的构建还引入了基于LLM的分区事件抽取方法LLM-PEE，以解决LLM在处理大量事件类型时的上下文长度限制问题。EEMT数据集和相关方法的提出，为EE领域的研究提供了重要的数据资源和新的研究方向。

当前挑战

EEMT数据集和相关研究面临的主要挑战包括：1) 缺乏有效且高效的标注方法：现有的标注方法主要分为人工标注和基于远程监督的方法，人工标注虽然有效但效率低，而基于远程监督的方法则存在标注质量低的问题。2) LLM在处理大量事件类型时的上下文长度限制：LLM在处理大量事件类型时，输入提示的长度会变得很长，这会增加模型理解提示的难度。3) 事件抽取的层次性问题：现有的事件抽取方法主要针对单一层次的事件，而实际事件往往具有复杂的层次结构。4) 端到端的事件抽取：现有的方法通常将事件抽取分为ED和EAE两个子任务，而端到端的事件抽取可以提高效率和准确性。5) 文档级别的事件抽取：现有的数据集主要在句子级别进行标注，而文档级别的事件抽取可以更好地理解事件之间的关系。

常用场景

经典使用场景

EEMT数据集主要应用于事件抽取（Event Extraction, EE）领域，特别是那些需要处理大量事件类型的研究。该数据集提供了超过200,000个样本，覆盖了3,465个事件类型和6,297个角色类型，是目前为止规模最大的EE数据集。EEMT数据集特别适合于研究如何利用大型语言模型（LLMs）进行高效的事件抽取，尤其是在零样本设置下，LLMs可以展现出强大的泛化能力。

解决学术问题

EEMT数据集解决了传统事件抽取方法在处理大量事件类型时遇到的两个主要挑战：1）缺乏有效且高效的标注方法；2）缺乏能够处理大量类型的事件抽取方法。通过基于LLMs的协同标注方法，EEMT数据集实现了大规模事件的自动标注，克服了传统人工标注方法的效率低下问题。同时，提出的LLM-PEE方法有效解决了LLMs在处理大量事件类型时遇到的上下文长度限制问题，从而提高了事件检测和事件论元抽取的性能。

实际应用

EEMT数据集的实际应用场景包括但不限于金融、生物医学研究、网络安全等领域。在这些领域中，EEMT数据集可以帮助研究人员构建能够提取大量类型事件的通用系统，从而更好地理解和分析文本中的结构化事件信息。此外，EEMT数据集还可以用于评估和改进LLMs在事件抽取任务上的性能，推动自然语言处理技术的发展。

数据集最近研究