CrisisBench

Name: CrisisBench
Creator: 卡塔尔计算研究机构
Published: 2021-04-18 00:10:22
License: 暂无描述

arXiv2021-04-18 更新2024-06-21 收录

下载链接：

https://crisisnlp.qcri.org/crisis_datasets_benchmarks.html

下载链接

链接失效反馈

官方服务：

资源简介：

CrisisBench是由卡塔尔计算研究机构创建的一个大型数据集，包含了从2010年到2017年间的166,100条推文，这些推文来自八个不同的公开可用数据集，经过人工标注和整合，用于信息性和人道主义分类任务。数据集的创建过程包括了语义标签映射、去重和语言标签的添加，以确保数据的质量和适用性。CrisisBench的应用领域主要集中在危机响应和灾害管理，旨在通过分析社交媒体数据来提高人道主义援助的效率和响应速度。

CrisisBench is a large-scale dataset developed by the Qatar Computing Research Institute. It contains 166,100 tweets collected between 2010 and 2017, sourced from eight distinct publicly available datasets. The dataset was manually annotated and integrated for informational and humanitarian classification tasks. The dataset creation process includes semantic label mapping, deduplication, and language tag addition to ensure data quality and applicability. CrisisBench is primarily applied in the fields of crisis response and disaster management, aiming to improve the efficiency and response speed of humanitarian aid through social media data analysis.

提供机构：

卡塔尔计算研究机构

创建时间：

2020-04-15

搜集汇总

数据集介绍

构建方式

在危机信息学领域，数据集的分散性阻碍了模型性能的公平比较与进展评估。CrisisBench通过整合八个公开的人类标注社交媒体数据集，构建了一个标准化的基准数据集。该过程涉及对不一致的类别标签进行语义映射，由领域专家手动完成，以确保标签的统一性。同时，采用基于余弦相似度的去重策略，有效剔除了重复和近似重复的推文，包括基于推文ID、内容完全一致及内容高度相似的条目，从而避免了训练与测试集的重叠，提升了数据集的纯净度。此外，为每条推文添加了语言标签，支持多语言分析，最终形成了包含16.61万条信息性分类推文和14.15万条人道主义分类推文的高质量资源。

特点

CrisisBench数据集在危机信息处理领域展现出显著特点。其规模庞大，覆盖了2010年至2017年间的多种灾害事件，时间跨度广泛，为研究时序动态提供了丰富素材。数据集中类别分布经过优化，虽仍存在一定的不平衡性，但相比原始分散数据集，类别覆盖更为全面，支持信息性（二元分类）和人道主义类型（多类分类）两大核心任务。数据集经过严格的去重处理，消除了重复和近似重复内容，确保了模型评估的可靠性。同时，多语言标签的引入，特别是英语推文占比高达94.46%，为跨语言研究奠定了基础，增强了数据集的适用性和可扩展性。

使用方法

CrisisBench数据集为危机信息处理研究提供了标准化的实验平台。研究人员可利用其进行模型训练与评估，重点关注信息性和人道主义分类任务。数据集已预先划分为训练集、开发集和测试集（比例分别为70%、10%和20%），支持直接用于深度学习架构如CNN、fastText及Transformer模型的基准测试。使用前需进行文本预处理，包括移除URL、标点符号和非ASCII字符等，以适配模型输入要求。评估时推荐采用加权平均精确度、召回率和F1值，以应对类别不平衡问题。此外，数据集支持事件感知训练策略，通过附加灾害事件类型标签，可优化模型在特定灾害场景下的性能，促进领域适应性研究。

背景与挑战

背景概述

在灾害信息学领域，社交媒体数据的时效性分析对于人道主义组织规划快速响应至关重要。CrisisBench数据集由卡塔尔计算研究所的Firoj Alam等研究人员于2021年创建，旨在整合分散的危机相关社交媒体数据集，以解决现有研究中因数据分散导致的模型性能无法公平比较的问题。该数据集汇集了八个公开可用的人类标注数据集，提供了16.61万条推文用于信息性分类任务和14.15万条推文用于人道主义分类任务，涵盖了2010年至2017年间的多种灾害事件。通过统一标注标准和清理重复内容，CrisisBench为危机信息处理任务提供了标准化的基准测试平台，显著促进了该领域模型的可比性和可复现性研究。

当前挑战

CrisisBench数据集主要应对两大挑战：在领域问题层面，它致力于解决危机信息学中社交媒体数据分类任务的标准化难题，包括信息性（如推文是否包含有用信息）和人道主义类型（如受灾个体报告、基础设施损坏等）的多类别分类，这些任务因数据噪声和类别不平衡而复杂化。在构建过程中，研究人员面临标签不一致的挑战，需手动映射不同数据源的语义相似类别；同时，数据中存在重复和近重复内容，包括基于推文ID、内容完全一致或高度相似的推文，这可能导致训练与测试集重叠，从而产生误导性性能评估。通过余弦相似度过滤和语言标签添加，团队确保了数据集的纯净性和多语言分析潜力。

常用场景

经典使用场景

在危机信息学领域，CrisisBench数据集为社交媒体数据在灾害响应中的处理提供了标准化基准。该数据集整合了多个公开的灾害相关推文数据集，通过统一标注和去重处理，支持信息性和人道主义分类任务的模型训练与评估。其经典使用场景包括利用卷积神经网络、fastText及Transformer架构进行二元或多元分类，以识别推文是否包含灾害相关有用信息，或具体归类为受影响个体报告、基础设施损坏等类别，从而推动灾害期间社交媒体信息自动筛选技术的发展。

衍生相关工作

CrisisBench衍生了一系列经典研究工作，包括基于Transformer模型的灾害推文分类、事件感知训练机制以及多语言分析探索。例如，研究利用BERT、RoBERTa等预训练模型在该数据集上取得了先进的分类性能；事件感知方法通过附加灾害类型标签优化了跨事件模型的泛化能力。此外，数据集还激发了零样本分类和多语言嵌入表示的研究，推动了危机信息学向更高效、适应性更强的方向发展。

数据集最近研究