five

CrisisTS

收藏
Hugging Face2025-05-27 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/Unknees/CrisisTS
下载链接
链接失效反馈
官方服务:
资源简介:
CrisisTS是一个包含社交媒体文本数据和气象数据的多元多语言数据集,用于危机管理。该数据集包含两种语言(英语和法语),共有22,291条推文(法语15,368条,英语6,923条),以及46,495条法语气象数据(3小时频率)和1,460条法语气象数据(每日频率)。危机类型包括风暴、飓风、洪水、野火、爆炸、恐怖袭击和倒塌。

CrisisTS is a multivariate multilingual dataset containing social media text data and meteorological data for crisis management. This dataset covers two languages (English and French), with a total of 22,291 tweets (15,368 in French and 6,923 in English), as well as 46,495 records of French meteorological data at 3-hour frequency and 1,460 records of French meteorological data at daily frequency. The included crisis types are storms, hurricanes, floods, wildfires, explosions, terrorist attacks, and building collapses.
创建时间:
2025-05-20
原始信息汇总

CrisisTS数据集概述

数据集基本信息

  • 任务类别: 文本分类
  • 支持语言: 英语(en)、法语(fr)
  • 标签: 气候(climate)
  • 数据集名称: CrisisTS
  • 数据规模: 10K<n<100K

数据集描述

CrisisTS是一个多模态多语言数据集,包含来自社交媒体的文本数据和气象数据,用于危机管理。

数据集摘要

  • 语言: 2种(英语和法语)
  • 推文总数: 22,291条(法语15,368条,英语6,923条)
  • 法语气象数据总数: 46,495条(3小时频率)
  • 英语气象数据总数: 1,460条(日频率)
  • 危机类型: 风暴、飓风、洪水、野火、爆炸、恐怖袭击、坍塌
  • 领域: 危机管理

数据对齐策略

  1. 文本中明确提及一个位置时:使用utils/Keywords中的关键词确定所属州
  2. 文本中未提及位置时:使用crisis_knowledge_LANG.csv通过关联危机影响位置确定推文位置

数据使用方式

原始数据获取

unix git clone https://huggingface.co/datasets/Unknees/CrisisTS

单模态使用

  • 文本数据: Textual_Data目录
  • 时间序列数据: Time_Series目录

多模态数据

Multi_modal_dataset目录已合并固定时间窗口数据:

  • 法语数据: 48小时窗口
  • 英语数据: 5天窗口

自定义时间窗口

unix python3 Linker_Eng.py --window_size 5 -output_file ./output_file.csv

或 unix python3 Linker_FR.py -w 16 -o ./output_file.csv

依赖库

  • 法语链接器: pandas, datetime, numpy, pytz, warnings, argparse
  • 英语链接器: pandas, os, json, scikit-learn, argparse

引用信息

bibtex @inproceedings{ title={Crisis{TS}: Coupling Social Media Textual Data and Meteorological Time Series for Urgency Classification}, author= "Meunier, Romain and Benamara, Farah and Moriceau, Veronique and Zhongzheng, Qiao and Ramasamy, Savitha", booktitle={The 63rd Annual Meeting of the Association for Computational Linguistics}, year={2025}, }

搜集汇总
数据集介绍
main_image_url
构建方式
CrisisTS数据集通过整合社交媒体文本数据与气象时间序列数据构建而成,旨在支持危机管理研究。数据集包含22,291条推文(15,368条法语和6,923条英语)以及46,495条法语气象数据和1,460条英语气象数据。文本数据通过关键词匹配和危机知识库关联进行空间对齐,确保数据的地理相关性。多模态数据集已预先合并固定时间窗口,用户也可通过提供的链接脚本自定义时间窗口。
使用方法
使用CrisisTS数据集时,用户可通过git克隆获取完整数据。对于单模态研究,可直接使用Textual_Data或Time_Series文件夹中的原始数据。多模态分析则可利用预处理的Multi_modal_dataset。通过Linker_Fr.py和Linker_Eng.py脚本,用户可自定义时间窗口大小生成个性化数据集。使用链接脚本需安装pandas、datetime等必要库,具体参数可通过命令行调整。数据集详细说明可参考附带的readme.txt文件。
背景与挑战
背景概述
CrisisTS数据集由Romain Meunier、Farah Benamara等学者于2025年提出,旨在为危机管理领域提供多模态多语言数据支持。该数据集整合了社交媒体文本与气象时间序列数据,覆盖风暴、洪水、恐怖袭击等七类危机事件,包含英语和法语两种语言版本。作为危机信息处理领域的重要资源,其创新性地实现了文本数据与气象数据的空间对齐,为跨模态危机预警与分类研究提供了新的范式。数据集由法国图卢兹大学等机构联合开发,在自然灾害监测、社会舆情分析等应用场景展现出显著价值。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,多模态数据融合需解决文本语义与气象特征的异构性对齐问题,且突发事件的语言表达具有高度非结构化特性;在构建过程中,社交媒体文本的地理位置标注依赖关键词匹配与危机知识库的联合推理,而气象数据的不同采集频率(法语3小时/英语每日)导致时间窗口对齐算法复杂度显著提升。此外,数据规模差异(法语文本15,368条vs英语6,923条)可能引入语种间的模型偏差。
常用场景
经典使用场景
在灾害管理领域,CrisisTS数据集通过整合社交媒体文本和气象时间序列数据,为研究者提供了一个多模态、多语言的分析平台。该数据集特别适用于灾害期间的紧急情况分类任务,研究者可以利用其中的英文和法文推文数据,结合气象观测值,构建灾害影响评估模型。通过时空对齐策略,数据集实现了文本信息与气象数据的精准匹配,为灾害响应决策提供了数据支撑。
解决学术问题
CrisisTS数据集有效解决了灾害管理中多源异构数据融合的学术难题。其创新的时空对齐方法克服了社交媒体数据地理信息缺失的挑战,为灾害影响范围评估提供了新思路。数据集涵盖风暴、洪水等七类灾害事件,支持跨语言比较研究,推动了多模态灾害分析方法的创新,对提升灾害预警系统的准确性具有重要理论价值。
实际应用
该数据集在应急管理领域展现出广泛的应用前景。政府部门可利用其构建实时灾害监测系统,通过分析社交媒体舆情和气象变化趋势,优化资源调配方案。救援组织能够基于数据集的分类结果,快速识别受灾严重区域。城市防灾规划者亦可借助历史灾害数据,完善基础设施韧性评估体系。
数据集最近研究
最新研究方向
在灾害管理领域,多模态数据的融合分析正成为前沿研究方向。CrisisTS数据集通过整合社交媒体文本与气象时间序列数据,为灾害紧急程度分类提供了新的研究范式。该数据集支持英语和法语双语种分析,覆盖风暴、洪水、野火等多种灾害类型,其独特的空间对齐策略实现了文本与气象数据的精准关联。当前研究热点集中在多模态特征提取、跨语言灾害模式挖掘,以及基于时间窗口的动态风险预测模型构建。这一数据资源的建立,为灾害响应决策支持系统提供了重要的数据基础,推动了计算语言学与气象学在应急管理领域的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作