CrisisBench

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/firojalam/crisis_datasets_benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

CrisisBench数据集包含来自多个不同数据源的数据，如CrisisLex（CrisisLex26, CrisisLex6）、CrisisNLP、SWDM2013、ISCRAM13、Disaster Response Data (DRD)、Disasters on Social Media (DSM)、CrisisMMD以及AIDR的数据。该数据集的目的是映射类别标签，去除重复数据，并为社区提供基准测试结果。

CrisisBench数据集汇聚了源自多个不同数据源的信息，包括CrisisLex（CrisisLex26、CrisisLex6）、CrisisNLP、SWDM2013、ISCRAM13、灾害响应数据集（Disaster Response Data, DRD）、社交媒体灾害（Disasters on Social Media, DSM）、CrisisMMD以及AIDR等。该数据集旨在实现类别标签的映射，剔除冗余数据，并向学术界提供基准测试的参考结果。

创建时间：

2020-03-31

原始信息汇总

CrisisBench数据集概述

数据集来源

CrisisBench数据集整合了多个来源的数据，包括CrisisLex（CrisisLex26, CrisisLex6）、CrisisNLP、SWDM2013、ISCRAM13、Disaster Response Data (DRD)、Disasters on Social Media (DSM)、CrisisMMD以及AIDR的数据。该数据集的主要目的是映射类别标签，去除重复数据，并为社区提供基准测试结果。

数据集内容

下载：数据集可通过此链接下载。
目录结构：
- data/all_data_en：用于实验的所有合并英语数据集。
- data/individual_data_en：用于实验的独立数据源，如crisisnlp和crisislex。
- data/event_aware_en：带有事件标签（如火灾、地震、洪水等）的合并英语数据集。
- data/data_split_all_lang：包含训练/开发和测试分割的合并数据集。
- data/initial_filtering：去除重复数据后的合并数据集。
- data/class_label_mapped：类别标签映射后的初始数据集。

实验设置

CNN实验：使用Python 2.7，需创建虚拟环境并安装依赖。
BERT实验：通过conda环境配置，使用特定的环境配置文件。

引用信息

若使用此数据集，请引用以下论文：

Firoj Alam, Hassan Sajjad, Muhammad Imran, and Ferda Ofli. "CrisisBench: Benchmarking Crisis-related Social Media Datasets for Humanitarian Information Processing." In ICWSM, 2021.

许可协议

本数据集遵循CC BY-NC-SA 4.0许可协议，允许非商业研究目的的使用。

搜集汇总

数据集介绍

构建方式

CrisisBench数据集的构建方式体现了对多样化危机相关数据的整合与标准化处理。该数据集汇集了来自多个来源的数据，包括CrisisLex、CrisisNLP、SWDM2013、ISCRAM13、Disaster Response Data（DRD）、Disasters on Social Media（DSM）、CrisisMMD以及AIDR的数据。在构建过程中，研究团队对数据进行了去重处理，并对类别标签进行了统一映射，以确保数据集的内部一致性和可比性。这一过程不仅提升了数据集的质量，还为后续的基准测试提供了坚实的基础。

特点

CrisisBench数据集的显著特点在于其多源数据的整合与多样化标签体系。该数据集不仅涵盖了多种危机事件（如火灾、地震、洪水等），还通过事件标签对数据进行了精细化分类。此外，数据集提供了多种语言版本，并包含了训练、验证和测试集的划分，便于研究者进行模型训练与评估。这些特性使得CrisisBench成为危机相关社交媒体数据处理领域的重要基准数据集。

使用方法

CrisisBench数据集的使用方法灵活多样，适用于多种机器学习任务。研究者可以通过下载数据集并解压缩，按照提供的目录结构进行数据访问。数据集支持基于CNN和BERT的实验，研究者可以根据需求设置虚拟环境并安装相关依赖。具体实验步骤包括加载预训练的word2vec模型、配置实验参数以及运行分类器脚本。此外，数据集还支持跨模型评估，便于研究者进行模型间的性能对比。

背景与挑战

背景概述

CrisisBench数据集是由多个不同来源的数据集整合而成，包括CrisisLex、CrisisNLP、SWDM2013、ISCRAM13、Disaster Response Data (DRD)、Disasters on Social Media (DSM)、CrisisMMD以及AIDR的数据。该数据集的主要研究目的是为社区提供一个标准化的危机相关社交媒体数据集，以便进行基准测试。CrisisBench的核心研究问题是如何有效地处理和分析危机相关的社交媒体数据，以支持人道主义信息处理。该数据集由Firoj Alam、Hassan Sajjad、Muhammad Imran和Ferda Ofli等研究人员创建，并在2021年的ICWSM会议上发表。CrisisBench的发布对危机管理、社交媒体分析和人道主义信息处理等领域产生了重要影响，为相关研究提供了丰富的数据资源。

当前挑战

CrisisBench数据集在构建过程中面临多项挑战。首先，整合来自不同来源的数据集需要解决数据格式不一致、标签体系差异等问题，这增加了数据预处理的复杂性。其次，危机相关的社交媒体数据通常具有高度的噪声和多样性，如何有效去除重复数据并确保数据质量是一个重要挑战。此外，该数据集在处理多语言数据时也面临语言多样性和翻译准确性的问题。在应用层面，如何利用CrisisBench进行有效的危机信息分类和事件识别，尤其是在多模态数据融合和跨模型评估方面，仍需进一步研究和优化。

常用场景

经典使用场景

CrisisBench数据集的经典使用场景主要集中在危机事件相关的社交媒体数据分析与处理。该数据集整合了多个来源的危机相关数据，如CrisisLex、CrisisNLP等，为研究者提供了一个统一的基准。通过该数据集，研究者可以进行危机事件的分类、信息提取、情感分析等任务，从而更好地理解社交媒体在危机事件中的作用。

衍生相关工作

CrisisBench数据集的发布催生了一系列相关的经典工作，特别是在危机事件相关的社交媒体数据处理领域。许多研究者基于该数据集进行了深度学习模型的训练与评估，如使用CNN和BERT模型进行危机信息的分类与情感分析。此外，该数据集还推动了跨数据源的模型评估研究，为不同数据源的模型泛化能力提供了重要参考。这些工作不仅丰富了危机事件相关的研究方法，还为实际应用提供了技术支持。

数据集最近研究