UCDP-AEC (Abstractive Event analysis Corpus)
收藏UCDP-AEC(Abstractive Event analysis Corpus)数据集概述
数据集简介
UCDP-AEC(Abstractive Event analysis Corpus)是一个关于武装冲突的抽象事件分析数据集,与论文《Abstractive Event Analysis of Armed Conflicts: Introducing the UCDP-AEC Dataset》相关联。
数据格式与内容
- 数据集分割以两种格式提供:Hugging Face数据集格式和JSONL格式。
- 数据字段包括:
source_article(包含HPLT文档ID)、id、side_a_name、side_b_name、start_date、end_date、location_root_name、location_adm1_name、location_adm2_name、location_where_name、deaths_side_a、deaths_side_b、deaths_civilian、deaths_unknown、deaths_low、deaths_high。 id和死亡相关字段为整数类型,其余字段为字符串类型。
数据预处理
提供了脚本aec/ids_to_documents.py用于将HPLT文档ID替换为实际文档内容。支持两种处理模式:
- 默认模式处理Hugging Face数据集格式
- 使用
-J参数仅处理JSONL文件
评估方法
提供评估脚本aec/evaluate.py用于模型性能评估。要求输入为JSONL格式的预测文件,每行包含一个预测事件。
相关资源
- 包含HPLT文档匹配代码(
hplt_align目录) - 包含数据统计分析脚本(
analysis目录) - 提供基线模型代码(
baselines目录),包括修改版的Text2Event和DEGREE模型
许可信息
- 主要代码采用GNU AGPL许可证
baselines/Text2Event目录保持原始MIT许可证baselines/DEGREE目录保持原始Apache 2.0许可证
引用信息
bibtex @inproceedings{simon-etal-2025-abstractive, title = {Abstractive Event Analysis of Armed Conflicts: Introducing the {UCDP-AEC} Dataset}, author = {Simon, {E}tienne and Olsen, Helene Bo{}sei and Carre~{n}o, Ram{o}n and Mishra, Rahul and Arefyev, Nikolay and Yilmaz, Mert Can and O{}vrelid, Lilja and Velldal, Erik}, year = {2025}, month = sep, booktitle = {Proceedings of the 5th Workshop on Computational Linguistics for the Political and Social Sciences}, publisher = {Association for Computational Linguistics}, address = {Hildesheim, Germany}, }




