CMNEE|军事新闻数据集|事件抽取数据集
收藏arXiv2024-04-18 更新2024-06-21 收录
下载链接:
https://github.com/Mzzzhu/CMNEE
下载链接
链接失效反馈资源简介:
CMNEE是一个基于开源中文军事新闻的大型文档级事件抽取数据集,由国防科技大学大数据与决策实验室创建。该数据集包含17,000个文档和29,223个事件,所有事件均基于预定义的军事领域模式进行手动标注,包括8种事件类型和11种论元角色类型。数据集的创建过程采用两阶段多轮标注策略,确保数据质量,并应用于情报分析和决策辅助等领域,旨在解决军事领域事件抽取的数据稀缺问题。
提供机构:
国防科技大学大数据与决策实验室
创建时间:
2024-04-18
AI搜集汇总
数据集介绍

构建方式
CMNEE数据集的构建过程始于从权威军事新闻网站抓取大量文本数据,随后通过预处理步骤去除冗余信息和错误代码。数据集的标注采用两阶段多轮迭代策略,首先通过预定义的触发词字典进行事件类型的初步标注,然后由领域专家进行详细的人工标注,确保标注质量。最终,通过多轮质量评估,确保所有标注指标达到指定阈值,形成包含17,000篇高质量标注文档的数据集。
使用方法
CMNEE数据集适用于多种事件抽取模型的训练和评估,特别适合于军事领域的事件抽取研究。使用者可以通过数据集提供的训练、开发和测试子集进行模型训练和性能评估。数据集的详细标注信息,包括事件触发词、事件类型、事件参数及其角色,为模型提供了丰富的训练数据。此外,数据集的共指参数标注也为评估模型的参数抽取能力提供了更全面的视角。
背景与挑战
背景概述
事件抽取作为从非结构化文本中提取结构化信息的关键任务,在情报分析和决策辅助等应用中具有基础性作用。然而,军事领域的事件抽取面临数据稀缺问题,这阻碍了该领域事件抽取模型的研究进展。为缓解这一问题,Mengna Zhu等人于2024年提出了CMNEE,一个大规模的、基于开源中文军事新闻的文档级事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均根据预定义的军事领域事件模式进行手动标注,涵盖8种事件类型和11种论元角色类型。CMNEE的构建旨在填补军事领域事件抽取数据集的空白,推动该领域的研究进展,并为下游应用提供支持。
当前挑战
CMNEE数据集在构建过程中面临多重挑战。首先,军事领域的事件抽取任务具有独特性,事件触发词和论元的识别难度较大,尤其是在文档级别的事件抽取中,事件论元常常分散在不同句子中。其次,现有的事件抽取模型大多依赖于高质量的训练数据,而军事领域的数据稀缺性限制了这些模型的性能。此外,军事文本的敏感性和保密性增加了数据获取和标注的难度。最后,CMNEE数据集中的事件类型和论元角色分布不均衡,导致模型在处理复杂文本时容易出现偏差。这些挑战表明,军事领域的事件抽取任务仍需进一步的研究和改进。
常用场景
经典使用场景
CMNEE数据集的经典使用场景在于支持大规模文档级别的事件抽取任务,特别是在军事新闻领域。通过提供丰富的标注数据,CMNEE帮助研究人员开发和评估事件抽取模型,尤其是在处理复杂文档结构和多事件共存的情况下。
解决学术问题
CMNEE数据集解决了军事领域事件抽取研究中长期存在的数据稀缺问题。通过提供大规模、高质量的标注数据,CMNEE促进了事件抽取模型在该领域的应用和发展,推动了相关学术研究的深入。
实际应用
CMNEE数据集在实际应用中具有重要价值,特别是在情报分析和决策辅助系统中。通过准确抽取军事新闻中的事件信息,CMNEE支持了军事战略规划和应急响应等关键任务,提升了相关系统的效率和准确性。
数据集最近研究
最新研究方向
在军事领域,事件抽取(Event Extraction)的研究正逐步成为情报分析和决策支持的关键技术。CMNEE数据集的提出,为这一领域的研究提供了大规模、高质量的文档级事件抽取数据。最新研究方向主要集中在利用深度学习模型提升文档级事件抽取的准确性和效率,特别是在处理多事件、长文本和重叠事件方面。此外,研究者们也在探索如何更有效地利用触发词信息和共指消解技术,以提高事件抽取的整体性能。CMNEE数据集的独特性在于其专注于军事新闻,这为开发更适用于军事领域的事件抽取模型提供了宝贵的资源和挑战。
相关研究论文
- 1CMNEE: A Large-Scale Document-Level Event Extraction Dataset based on Open-Source Chinese Military News国防科技大学大数据与决策实验室 · 2024年
以上内容由AI搜集并总结生成



