ExtremeWeatherNews
收藏arXiv2025-04-27 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.19066v1
下载链接
链接失效反馈官方服务:
资源简介:
ExtremeWeatherNews数据集是一个包含60个不同极端天气事件相关新闻报道的综合性数据集,旨在支持对极端天气相关任务的研究。该数据集共包含127,454个句子,通过从Google新闻RSS源和newspaper3k Python库收集的新闻文章构建而成。为了确保数据集中包含与极端天气相关的信息,研究人员采用了基于事件的搜索查询,并使用Flair NER标签器过滤出包含地理位置信息的句子。该数据集的创建过程涉及从网络爬取相关新闻文章,并使用自然语言处理技术进行文本解析和实体识别,最终形成了一个内容丰富、地域广泛的极端天气新闻报道数据集。
The ExtremeWeatherNews Dataset is a comprehensive dataset comprising news reports related to 60 distinct extreme weather events, designed to support research on tasks associated with extreme weather. It contains a total of 127,454 sentences, and is constructed from news articles collected from Google News RSS feeds and the newspaper3k Python library. To ensure the dataset includes information relevant to extreme weather, researchers adopted event-based search queries and used the Flair NER tagger to filter sentences containing geographic location information. The creation process of this dataset involves crawling relevant news articles from the web, performing text parsing and entity recognition via natural language processing technologies, and finally forming a content-rich and geographically diverse dataset of extreme weather news reports.
提供机构:
新加坡国立大学设计工程学院, 新加坡国立大学数学系, 新加坡南洋理工大学计算机与数据科学学院
创建时间:
2025-04-27
搜集汇总
数据集介绍

构建方式
ExtremeWeatherNews数据集构建于对60种极端天气事件相关新闻文章的收集,采用基于Google News RSS订阅和newspaper3k Python库的网络爬取方法。为确保数据的地理相关性,研究团队使用Flair NER标记器识别并提取地理政治实体(GPE)类别的实体,过滤掉无位置标记的句子,最终获得127,454条精选句子。搜索查询结合事件名称、位置和预定义主题关键词(如公共、经济和天气条件),以增强数据的相关性和上下文准确性。
使用方法
ExtremeWeatherNews数据集的使用方法包括三个主要任务:脆弱性/影响/应急评估、主题/子主题标记和关键词提取以及情感分析。研究人员可以通过该数据集训练小型语言模型(SLMs),利用大型语言模型(LLMs)生成的结构化推理路径进行微调,以提升模型在极端天气分析中的表现。数据集还支持实时分析和可视化,通过ClimaEmpact在线仪表板,用户可以快速获取极端天气事件的影响、脆弱性和情感分析结果。
背景与挑战
背景概述
ExtremeWeatherNews数据集由新加坡国立大学和南洋理工大学的研究团队于2025年创建,旨在解决极端天气事件分析的三大核心任务:脆弱性/影响分类、主题标注和情感分析。该数据集包含60个极端天气事件的新闻文章,通过自动化爬取和专家标注构建,为气候研究提供了细粒度的文本数据支持。其创新性体现在将大语言模型的推理能力迁移至小语言模型,显著提升了极端天气分析的实时性和准确性,填补了该领域缺乏结构化知识的空白。
当前挑战
该数据集面临双重挑战:在领域问题层面,需克服极端天气事件动态演变带来的数据时效性问题,以及跨地区灾害影响评估的语义歧义;在构建过程中,需解决新闻数据的地理实体识别噪声、多语言报道的归一化处理,以及LLM生成标注的幻觉控制等技术难点。此外,情感分析任务中主观标注的偏差校正,以及小模型对复杂气象术语的语义理解不足,均为亟待突破的关键问题。
常用场景
经典使用场景
ExtremeWeatherNews数据集在极端天气事件分析领域具有广泛的应用场景,特别是在新闻文本的情感分析、主题分类和关键词提取等方面。该数据集通过整合大量与极端天气相关的新闻报道,为研究人员提供了一个丰富的语料库,用于训练和评估语言模型在极端天气事件中的表现。其经典使用场景包括对新闻报道中的情感倾向进行量化分析,识别关键主题和子主题,以及提取与极端天气事件相关的关键词。
解决学术问题
ExtremeWeatherNews数据集解决了极端天气事件分析中的多个学术问题。首先,它填补了极端天气事件相关文本数据的空白,为研究人员提供了高质量的标注数据。其次,通过结合大型语言模型(LLMs)和小型语言模型(SLMs)的优势,该数据集支持了极端天气事件分类、情感分析和主题标注等任务的研究。此外,该数据集还促进了跨学科研究,将自然语言处理技术与气候科学相结合,为极端天气事件的实时分析和预测提供了新的方法。
实际应用
在实际应用中,ExtremeWeatherNews数据集被广泛用于灾害响应和风险管理。例如,政府部门可以利用该数据集分析公众对极端天气事件的情感反应,从而优化应急通信策略。保险公司可以通过主题分类和关键词提取技术,快速评估灾害损失并制定理赔方案。此外,该数据集还支持新闻媒体和科研机构进行极端天气事件的实时监测和分析,为公众提供及时、准确的信息。
数据集最近研究
最新研究方向
近年来,ExtremeWeatherNews数据集在极端天气分析领域的研究方向主要集中在利用大型语言模型(LLMs)和小型语言模型(SLMs)的结合,提升对极端天气事件的分类、情感分析和主题标注能力。通过提出的极端天气推理感知对齐(EWRA)方法,研究者们成功地将LLMs的结构化推理能力迁移到SLMs,显著提高了模型在极端天气事件分析中的表现。这一方法不仅优化了模型对脆弱性、影响和紧急响应的评估能力,还通过情感分析捕捉了公众对极端天气事件的情感反应。ExtremeWeatherNews数据集的发布为极端天气事件的实时分析和决策支持提供了重要数据基础,推动了气候变化适应和灾害响应策略的发展。
相关研究论文
- 1ClimaEmpact: Domain-Aligned Small Language Models and Datasets for Extreme Weather Analytics新加坡国立大学设计工程学院, 新加坡国立大学数学系, 新加坡南洋理工大学计算机与数据科学学院 · 2025年
以上内容由遇见数据集搜集并总结生成



