five

Conflict Events in the Horn of Africa region (CEHA)

收藏
arXiv2024-12-18 更新2024-12-20 收录
下载链接:
https://github.com/dataminr-ai/CEHA
下载链接
链接失效反馈
官方服务:
资源简介:
CEHA数据集是由Dataminr Inc.创建的一个关于非洲之角冲突事件的基准数据集,包含500条英文事件描述,涵盖了该地区的冲突事件。数据集通过从ACLED和GDELT中抽取事件,并由国际发展领域的专家进行标注,提供了细粒度的冲突事件类型定义。数据集的创建旨在支持低资源环境下的模型评估,特别是在冲突事件的识别和分类任务中。CEHA数据集的应用领域主要集中在人道主义援助和和平发展领域,旨在帮助理解冲突动态并支持战略干预。

The CEHA dataset is a benchmark dataset focused on Horn of Africa conflict events, created by Dataminr Inc. It consists of 500 English event descriptions covering conflict incidents in this region. The dataset is constructed by extracting events from ACLED and GDELT, annotated by experts in the field of international development, and provides fine-grained definitions of conflict event types. The dataset was developed to support model evaluation in low-resource environments, particularly for conflict event identification and classification tasks. The primary application areas of the CEHA dataset are humanitarian aid and peace development, aiming to help understand conflict dynamics and support strategic interventions.
提供机构:
Dataminr Inc.
创建时间:
2024-12-18
原始信息汇总

CEHA 数据集概述

数据集简介

CEHA 是一个包含 500 条英语冲突事件描述的数据集,主要涉及非洲之角地区的冲突事件。

数据集内容

  • 语言:英语
  • 事件类型:冲突事件
  • 地理区域:非洲之角
  • 数据量:500 条事件描述
搜集汇总
数据集介绍
main_image_url
构建方式
CEHA数据集通过整合ACLED和GDELT两个来源的数据构建而成,涵盖了500条关于非洲之角地区冲突事件的英文描述。数据集的构建过程包括从这两个数据源中提取所有可能的暴力冲突事件,并进行平衡采样。ACLED数据由专家手动标注,而GDELT数据则通过自动标签生成。为了确保数据质量,CEHA数据集的每条事件描述都经过专家的二阶段标注流程:首先进行事件相关性分类,随后对相关事件进行细粒度的冲突类型分类。
特点
CEHA数据集的显著特点在于其细粒度的冲突事件分类,涵盖了四个关键事件类型:部落/社区/种族冲突、宗教冲突、社会政治暴力针对女性以及气候相关安全风险。此外,该数据集通过专家标注确保了高质量的标签,适用于低资源环境下的模型评估。其区域性和事件类型的精细划分使其成为研究非洲之角地区冲突动态的重要资源。
使用方法
CEHA数据集可用于训练和评估模型在识别和分类非洲之角地区冲突事件方面的性能。用户可以通过事件相关性分类和事件类型分类两个任务来使用该数据集。事件相关性分类任务旨在判断事件是否与暴力冲突相关,而事件类型分类任务则进一步细分为四个冲突类型。该数据集适用于监督学习和基于提示的大型语言模型(LLMs),尤其是在低资源环境下进行模型训练和评估。
背景与挑战
背景概述
冲突事件的识别与分类在人道主义援助和和平发展中具有重要意义,尤其是在非洲之角等冲突频发的地区。CEHA(Conflict Events in the Horn of Africa region)数据集由Dataminr Inc.的研究团队创建,旨在通过自然语言处理技术,从新闻文章中提取并分类非洲之角地区的暴力冲突事件。该数据集包含了500条英文事件描述,涵盖了非洲之角地区的冲突事件,并由领域专家进行了精细的事件类型标注。CEHA数据集的发布填补了现有冲突事件数据集中对非洲之角地区冲突事件类型细粒度分类的空白,为模型评估和低资源环境下的冲突事件检测提供了新的基准。
当前挑战
CEHA数据集的构建面临多重挑战。首先,非洲之角地区的冲突事件类型复杂多样,涉及种族、宗教、社会政治等多方面因素,导致事件类型的分类任务极具挑战性。其次,数据集的构建过程中,如何从ACLED和GDELT等现有数据源中筛选出相关事件,并确保标注的准确性和一致性,是一项艰巨的任务。此外,由于非洲之角地区的冲突事件数据相对稀缺,数据集的规模较小,且存在类别不平衡问题,特别是气候相关安全风险事件的样本数量较少,这进一步增加了模型训练和评估的难度。
常用场景
经典使用场景
CEHA数据集的经典使用场景主要集中在通过自然语言处理(NLP)技术从新闻文章中识别和分类暴力冲突事件。该数据集特别适用于低资源环境下的事件相关性分类和事件类型分类任务。通过分析新闻文章中的事件描述,模型可以识别出是否涉及暴力冲突,并进一步细分为种族/部落/社区冲突、宗教冲突、社会政治暴力针对妇女以及气候相关安全风险等四种事件类型。
解决学术问题
CEHA数据集解决了现有冲突事件数据集中缺乏对非洲之角地区细粒度事件类型分类的问题。通过提供500个经过专家标注的事件描述,该数据集为研究人员提供了一个基准,用于评估和改进在低资源环境下的事件检测和分类模型。这不仅有助于理解冲突的动态和原因,还为和平建设和发展干预提供了战略支持。
衍生相关工作
CEHA数据集的发布激发了大量相关研究工作,特别是在低资源环境下的事件检测和分类任务。基于该数据集,研究人员开发了多种深度学习模型和大型语言模型(LLMs),并在事件相关性和事件类型分类任务上进行了广泛的实验。此外,CEHA还为AI4SG(AI for Social Good)领域的研究提供了新的方向,特别是在冲突影响地区的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作