CMNEE（Chinese Military News Event Extraction dataset）

Name: CMNEE（Chinese Military News Event Extraction dataset）
Creator: 国防科技大学、东南大学和清华大学
Published: 2024-04-18 00:00:00
License: 暂无描述

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/Mzzzhu/CMNEE

下载链接

链接失效反馈

官方服务：

资源简介：

CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

CMNEE (Chinese Military News Event Extraction dataset) is a large-scale, document-annotated open-source Chinese military news event extraction dataset jointly constructed by the National University of Defense Technology, Southeast University and Tsinghua University. The dataset contains 17,000 documents and 29,223 events, all of which are manually annotated based on pre-defined military domain schemas, including 8 event types and 11 argument roles. The dataset construction follows a two-stage, multi-round annotation strategy: first, military news texts are obtained from authoritative websites and preprocessed, then pre-annotation is conducted via a trigger word dictionary, and the event schemas are finalized after review by domain experts. Subsequently, batch-by-batch, iterative manual annotation and continuous correction are carried out until the established quality standards are met. As the first document-level event extraction dataset focused on the military domain, CMNEE holds significant importance for promoting relevant research.

提供机构：

国防科技大学、东南大学和清华大学

创建时间：

2024-04-18

原始信息汇总

CMNEE数据集概述

数据集基本信息

名称: CMNEE
类型: 大规模文档级中文军事新闻事件抽取数据集
文档数量: 17,000
事件数量: 29,223
事件类型: 8种
论元角色类型: 11种
数据来源: 开源中文军事新闻
数据获取: Google Drive链接

数据集结构

数据格式: JSON
核心字段:
- id: 实例唯一标识
- text: 包含事件信息的文档文本
- event_list: 标注的事件列表，每个事件包含event_type, trigger(触发词), arguments(论元)
- coref_arguments: 实例中的共指论元列表，每个子列表指向文本中的同一对象

数据集应用

相关竞赛: 用于支持“特定领域多事件信息联合抽取”竞赛，竞赛平台为DataFountain
竞赛特点:
- 数据分割: CMNEE分为训练集、验证集和测试集
- 测试标签: 测试集无标签信息
- 评估方法: 使用Precision, Recall和F1-score进行评估

数据集评估

基准模型:
- DCFEE-O & DCFEE-M
- GreedyDec & Doc2EDAG
- DEPPN
- BERT+CRF
- EEQA
- TEXT2EVENT
- PAIE
数据处理: 相关处理数据可从Google Drive链接获取

引用信息

论文: CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News
作者: Zhu, Mengna et al.
出版: Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

搜集汇总

数据集介绍

构建方式

CMNEE数据集的构建基于大规模的开放源中文军事新闻，涵盖了17,000份文档和29,223个事件。该数据集通过预定义的军事领域事件模式，包括8种事件类型和11种参数角色类型，进行手动标注。构建过程中采用了两阶段多轮的标注策略，以确保数据的高质量和一致性。

特点

CMNEE数据集的主要特点在于其大规模性和领域专一性。它不仅提供了丰富的军事新闻文本，还通过详细的标注确保了事件和参数的高精度识别。此外，数据集的结构化设计使其适用于多种事件提取模型的训练和评估，为军事领域的情报分析和决策支持提供了强有力的数据基础。

使用方法

使用CMNEE数据集时，用户可以通过提供的链接下载数据，并根据数据格式进行解析。数据集分为训练集、验证集和测试集，适合用于训练和评估事件提取模型。用户可以参考相关论文和竞赛网站上的详细信息，了解数据集的评估方法和基准模型，以便更好地利用该数据集进行研究和开发。

背景与挑战

背景概述

在军事领域，事件提取技术对于情报分析和决策支持至关重要。然而，该领域的数据稀缺性问题限制了事件提取模型的研究与发展。为应对这一挑战，CMNEE（Chinese Military News Event Extraction dataset）应运而生，由朱梦娜等人于2024年创建。CMNEE是一个大规模的文档级中文军事新闻事件提取数据集，包含17,000份文档和29,223个事件，这些事件均基于预定义的军事领域模式进行手动标注，涵盖8种事件类型和11种论元角色类型。该数据集不仅支持了国家国防科技大学大数据与决策实验室举办的‘特定领域多事件信息联合提取’竞赛，还为军事领域的事件提取研究提供了宝贵的资源，推动了相关技术的发展。

当前挑战

CMNEE数据集在构建过程中面临多重挑战。首先，军事领域的文本具有高度专业性和敏感性，导致数据获取和标注的复杂性增加。其次，事件类型的多样性和论元角色的复杂性要求精细的标注策略和高质量的标注人员。此外，数据集的评估方法需兼顾精确性、召回率和F1分数，以确保模型的公平性和有效性。尽管CMNEE在军事领域的事件提取研究中具有重要意义，但其性能仍需进一步提升，以应对军事文本中特有的挑战，如事件触发词的多样性和论元角色的模糊性。

常用场景

经典使用场景

在军事领域，CMNEE数据集的经典使用场景主要集中在文档级别的事件抽取任务中。该数据集通过大规模的军事新闻文本，提供了丰富的事件标注信息，包括事件类型和参数角色，从而为研究人员提供了宝贵的资源，以开发和评估事件抽取模型。这些模型可以用于自动识别和分类军事新闻中的关键事件，如军事演习、事故和伤亡等，极大地提升了信息处理的效率和准确性。

实际应用

在实际应用中，CMNEE数据集被广泛用于军事情报分析和决策支持系统。通过自动抽取和分析军事新闻中的事件信息，这些系统能够实时监控和预测军事动态，为军事指挥和战略规划提供数据支持。此外，该数据集还支持军事新闻的自动化处理和内容生成，提高了新闻报道的效率和准确性。

衍生相关工作

CMNEE数据集的发布催生了一系列相关研究工作，特别是在事件抽取和自然语言处理领域。例如，基于该数据集，研究人员开发了多种事件抽取模型，如DCFEE-O、GreedyDec和Doc2EDAG等，这些模型在军事文本处理中表现出色。此外，CMNEE还促进了跨领域的事件抽取技术交流，推动了事件抽取技术在不同领域的应用和发展。

以上内容由遇见数据集搜集并总结生成