five

CMNEE(Chinese Military News Event Extraction dataset)|自然语言处理数据集|军事新闻分析数据集

收藏
github2024-04-18 更新2024-05-31 收录
自然语言处理
军事新闻分析
下载链接:
https://github.com/Mzzzhu/CMNEE
下载链接
链接失效反馈
资源简介:
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
提供机构:
国防科技大学、东南大学和清华大学
创建时间:
2024-04-18
原始信息汇总

CMNEE数据集概述

数据集基本信息

  • 名称: CMNEE
  • 类型: 大规模文档级中文军事新闻事件抽取数据集
  • 文档数量: 17,000
  • 事件数量: 29,223
  • 事件类型: 8种
  • 论元角色类型: 11种
  • 数据来源: 开源中文军事新闻
  • 数据获取: Google Drive链接

数据集结构

  • 数据格式: JSON
  • 核心字段:
    • id: 实例唯一标识
    • text: 包含事件信息的文档文本
    • event_list: 标注的事件列表,每个事件包含event_type, trigger(触发词), arguments(论元)
    • coref_arguments: 实例中的共指论元列表,每个子列表指向文本中的同一对象

数据集应用

  • 相关竞赛: 用于支持“特定领域多事件信息联合抽取”竞赛,竞赛平台为DataFountain
  • 竞赛特点:
    • 数据分割: CMNEE分为训练集、验证集和测试集
    • 测试标签: 测试集无标签信息
    • 评估方法: 使用Precision, Recall和F1-score进行评估

数据集评估

  • 基准模型:
    • DCFEE-O & DCFEE-M
    • GreedyDec & Doc2EDAG
    • DEPPN
    • BERT+CRF
    • EEQA
    • TEXT2EVENT
    • PAIE
  • 数据处理: 相关处理数据可从Google Drive链接获取

引用信息

AI搜集汇总
数据集介绍
main_image_url
构建方式
CMNEE数据集的构建基于大规模的开放源中文军事新闻,涵盖了17,000份文档和29,223个事件。该数据集通过预定义的军事领域事件模式,包括8种事件类型和11种参数角色类型,进行手动标注。构建过程中采用了两阶段多轮的标注策略,以确保数据的高质量和一致性。
特点
CMNEE数据集的主要特点在于其大规模性和领域专一性。它不仅提供了丰富的军事新闻文本,还通过详细的标注确保了事件和参数的高精度识别。此外,数据集的结构化设计使其适用于多种事件提取模型的训练和评估,为军事领域的情报分析和决策支持提供了强有力的数据基础。
使用方法
使用CMNEE数据集时,用户可以通过提供的链接下载数据,并根据数据格式进行解析。数据集分为训练集、验证集和测试集,适合用于训练和评估事件提取模型。用户可以参考相关论文和竞赛网站上的详细信息,了解数据集的评估方法和基准模型,以便更好地利用该数据集进行研究和开发。
背景与挑战
背景概述
在军事领域,事件提取技术对于情报分析和决策支持至关重要。然而,该领域的数据稀缺性问题限制了事件提取模型的研究与发展。为应对这一挑战,CMNEE(Chinese Military News Event Extraction dataset)应运而生,由朱梦娜等人于2024年创建。CMNEE是一个大规模的文档级中文军事新闻事件提取数据集,包含17,000份文档和29,223个事件,这些事件均基于预定义的军事领域模式进行手动标注,涵盖8种事件类型和11种论元角色类型。该数据集不仅支持了国家国防科技大学大数据与决策实验室举办的‘特定领域多事件信息联合提取’竞赛,还为军事领域的事件提取研究提供了宝贵的资源,推动了相关技术的发展。
当前挑战
CMNEE数据集在构建过程中面临多重挑战。首先,军事领域的文本具有高度专业性和敏感性,导致数据获取和标注的复杂性增加。其次,事件类型的多样性和论元角色的复杂性要求精细的标注策略和高质量的标注人员。此外,数据集的评估方法需兼顾精确性、召回率和F1分数,以确保模型的公平性和有效性。尽管CMNEE在军事领域的事件提取研究中具有重要意义,但其性能仍需进一步提升,以应对军事文本中特有的挑战,如事件触发词的多样性和论元角色的模糊性。
常用场景
经典使用场景
在军事领域,CMNEE数据集的经典使用场景主要集中在文档级别的事件抽取任务中。该数据集通过大规模的军事新闻文本,提供了丰富的事件标注信息,包括事件类型和参数角色,从而为研究人员提供了宝贵的资源,以开发和评估事件抽取模型。这些模型可以用于自动识别和分类军事新闻中的关键事件,如军事演习、事故和伤亡等,极大地提升了信息处理的效率和准确性。
实际应用
在实际应用中,CMNEE数据集被广泛用于军事情报分析和决策支持系统。通过自动抽取和分析军事新闻中的事件信息,这些系统能够实时监控和预测军事动态,为军事指挥和战略规划提供数据支持。此外,该数据集还支持军事新闻的自动化处理和内容生成,提高了新闻报道的效率和准确性。
衍生相关工作
CMNEE数据集的发布催生了一系列相关研究工作,特别是在事件抽取和自然语言处理领域。例如,基于该数据集,研究人员开发了多种事件抽取模型,如DCFEE-O、GreedyDec和Doc2EDAG等,这些模型在军事文本处理中表现出色。此外,CMNEE还促进了跨领域的事件抽取技术交流,推动了事件抽取技术在不同领域的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录