five

UCDP-AEC (Abstractive Event analysis Corpus)

收藏
github2025-08-22 更新2025-08-23 收录
下载链接:
https://github.com/ltgoslo/ucdp-aec
下载链接
链接失效反馈
官方服务:
资源简介:
UCDP抽象事件分析语料库,包含武装冲突的抽象事件分析数据集,提供HuggingFace数据集和jsonl格式的数据分割,用于模型训练和评估。

The UCDP Abstract Event Analysis Corpus, which includes datasets for the abstract event analysis of armed conflicts, offers data splits in HuggingFace dataset and l formats for model training and evaluation.
创建时间:
2025-08-16
原始信息汇总

UCDP-AEC(Abstractive Event analysis Corpus)数据集概述

数据集简介

UCDP-AEC(Abstractive Event analysis Corpus)是一个关于武装冲突的抽象事件分析数据集,与论文《Abstractive Event Analysis of Armed Conflicts: Introducing the UCDP-AEC Dataset》相关联。

数据格式与内容

  • 数据集分割以两种格式提供:Hugging Face数据集格式和JSONL格式。
  • 数据字段包括:source_article(包含HPLT文档ID)、idside_a_nameside_b_namestart_dateend_datelocation_root_namelocation_adm1_namelocation_adm2_namelocation_where_namedeaths_side_adeaths_side_bdeaths_civiliandeaths_unknowndeaths_lowdeaths_high
  • id和死亡相关字段为整数类型,其余字段为字符串类型。

数据预处理

提供了脚本aec/ids_to_documents.py用于将HPLT文档ID替换为实际文档内容。支持两种处理模式:

  • 默认模式处理Hugging Face数据集格式
  • 使用-J参数仅处理JSONL文件

评估方法

提供评估脚本aec/evaluate.py用于模型性能评估。要求输入为JSONL格式的预测文件,每行包含一个预测事件。

相关资源

  • 包含HPLT文档匹配代码(hplt_align目录)
  • 包含数据统计分析脚本(analysis目录)
  • 提供基线模型代码(baselines目录),包括修改版的Text2Event和DEGREE模型

许可信息

  • 主要代码采用GNU AGPL许可证
  • baselines/Text2Event目录保持原始MIT许可证
  • baselines/DEGREE目录保持原始Apache 2.0许可证

引用信息

bibtex @inproceedings{simon-etal-2025-abstractive, title = {Abstractive Event Analysis of Armed Conflicts: Introducing the {UCDP-AEC} Dataset}, author = {Simon, {E}tienne and Olsen, Helene Bo{}sei and Carre~{n}o, Ram{o}n and Mishra, Rahul and Arefyev, Nikolay and Yilmaz, Mert Can and O{}vrelid, Lilja and Velldal, Erik}, year = {2025}, month = sep, booktitle = {Proceedings of the 5th Workshop on Computational Linguistics for the Political and Social Sciences}, publisher = {Association for Computational Linguistics}, address = {Hildesheim, Germany}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在武装冲突事件分析领域,UCDP-AEC数据集依托HPLT大规模多语言语料库构建而成,通过严谨的文档匹配与事件抽取流程,将原始新闻文档转化为结构化事件表示。其构建过程采用自动化与人工校验相结合的方式,确保事件信息的准确性与一致性,涵盖冲突参与方、时间、地点及伤亡数据等关键维度,为抽象事件分析任务奠定了高质量数据基础。
特点
该数据集显著特点在于其抽象事件表示能力,将非结构化的冲突报道转化为标准化的事件记录,包含细粒度的地理行政层级划分与精确的伤亡统计字段。所有事件均关联至HPLT文档源,支持多语言溯源分析,且提供严格的训练、验证及测试划分,保障模型评估的可靠性与可复现性,为计算社会科学研究提供丰富的事件语义信息。
使用方法
研究者可通过Hugging Face数据集接口或JSONL格式加载数据,利用配套脚本将文档ID还原为原始文本内容。模型评估需生成符合特定JSON结构的预测文件,包含整数类型的ID与伤亡字段及字符串类型的事件属性,并通过专用评估脚本进行性能度量。数据集额外提供基线模型代码与统计分析工具,支持端到端的事件抽取与生成实验流程。
背景与挑战
背景概述
武装冲突事件分析作为计算社会科学与自然语言处理的交叉领域,长期面临事件信息抽取与抽象化表述的挑战。UCDP-AEC数据集由Étienne Simon等学者于2025年构建,依托乌普萨拉冲突数据项目(UCDP)与高性能语言技术(HPLT)语料库,致力于通过抽象化事件描述推动冲突事件的自动化分析。该数据集通过融合多源冲突报告与结构化事件要素,为研究者提供了标准化评估基准,显著提升了冲突事件建模的精确度与可解释性,对计算政治学与事件语义理解领域具有重要推动作用。
当前挑战
该数据集核心挑战在于解决武装冲突事件的多维度结构化表示问题,需同时处理事件参与者、时空属性及伤亡统计等复杂要素的联合抽取与生成。构建过程中面临原始文本与结构化标注的对齐难题,特别是在跨语言文档匹配与低资源冲突地区数据稀疏性方面存在显著障碍。此外,事件要素的抽象化表述要求模型具备深层语义推理能力,而非简单模板填充,这对自然语言生成技术提出了更高层次的逻辑连贯性与事实一致性要求。
常用场景
经典使用场景
在武装冲突事件分析领域,UCDP-AEC数据集为抽象事件抽取任务提供了标准化评估基准。研究者通常利用该数据集训练端到端事件生成模型,通过输入冲突报道文本,自动输出结构化事件摘要,包含交战方、时间、地点及伤亡人数等关键要素。该数据集支持模型学习从非结构化文本到规范化事件记录的映射关系,为冲突事件的信息压缩与标准化表述建立了实验基础。
解决学术问题
该数据集显著解决了武装冲突事件分析中的信息抽象与结构化难题。通过提供高质量的事件摘要标注,它支持研究者开发能够自动提取冲突事件核心要素的NLP模型,包括实体识别、时序关系构建和数值信息抽取。其意义在于建立了事件抽象生成任务的评估标准,推动了计算社会科学领域对冲突事件自动化分析的研究进展,为大规模冲突事件数据库的构建提供了技术支撑。
衍生相关工作
基于UCDP-AEC数据集,研究者已开发出多种先进的事件抽取模型。Text2Event框架通过序列到序列的生成方式实现了端到端的事件抽取,DEGREE模型则采用基于模板的生成方法提升事件结构的规范性。这些工作推动了事件抽取技术从分类式向生成式的范式转变,衍生出包括事件时序分析、跨文档事件聚合等一系列研究方向,为计算社会科学提供了新的方法论工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作