WXImpactBench

Name: WXImpactBench
Creator: 蒙特利尔大学, 滑铁卢大学, 清华大学, 蒙特利尔大学
Published: 2025-05-27 01:23:29
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://github.com/Michaelyya/WXImpactBench

下载链接

链接失效反馈

官方服务：

资源简介：

WXImpactBench数据集是一个高质量的破坏性天气影响数据集，由蒙特利尔大学、滑铁卢大学、清华大学和蒙特利尔大学的研究人员构建。数据集由从数字化报纸文章中提取的文本组成，经过OCR纠正和人工标注，旨在评估大型语言模型对破坏性天气影响的理解能力。数据集包含350篇文章，涵盖了基础设施、政治、金融、生态、农业和人类健康六个影响类别，并支持多标签分类和基于排名的问答任务。

The WXImpactBench dataset is a high-quality destructive weather impact dataset, constructed by researchers from Université de Montréal, University of Waterloo, Tsinghua University, and Université de Montréal. It consists of text extracted from digitized newspaper articles that have undergone OCR correction and manual annotation. This dataset aims to evaluate the capability of large language models (LLMs) to understand the impacts of destructive weather. It contains 350 articles covering six impact categories including infrastructure, politics, finance, ecology, agriculture, and human health, and supports both multi-label classification and ranking-based question answering tasks.

提供机构：

蒙特利尔大学, 滑铁卢大学, 清华大学, 蒙特利尔大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

WXImpactBench数据集的构建采用了四阶段精心设计的流程。首先，通过与档案机构合作收集两个历史时期的数字化报纸文章作为原始语料。随后，针对OCR数字化文本中存在的噪声问题，利用GPT-4O进行后处理校正，显著提升了文本质量。在主题感知的文章选择阶段，通过LDA主题建模从53,521篇天气相关文章中筛选出350个高质量样本。最后，由领域专家根据六种天气影响类别（基础设施、政治、金融、生态、农业和人类健康）进行人工标注，确保数据集的准确性和可靠性。

特点

该数据集具有三个显著特点：首先，其语料来源于历史报纸，记录了社会对极端天气事件的真实反应，具有独特的历史价值和社会学意义。其次，数据集涵盖了六个维度的天气影响类别，为全面评估语言模型对天气影响的理解能力提供了多维度的基准。最后，数据集包含不同时期的文本，反映了语言风格和社会背景的演变，增加了任务的复杂性。特别值得注意的是，数据集经过严格的OCR校正和专家审核，确保了文本质量和标注的准确性。

使用方法

WXImpactBench支持两种主要的使用方式：多标签分类任务和基于排名的问答任务。在多标签分类任务中，用户可以利用数据集评估模型对六种天气影响类别的识别能力。基于排名的问答任务则要求模型从候选文章中找出与特定天气影响问题最相关的内容，这有助于开发检索增强生成系统。使用时需注意，数据集包含长短两种上下文版本，用户可根据计算资源选择合适的版本进行评估。此外，数据集提供了详细的标注指南和示例，确保评估过程的标准化和可重复性。

背景与挑战

背景概述

WXImpactBench是由McGill University、University of Waterloo、Tsinghua University和University of Montreal的研究团队于2025年提出的首个专注于评估大语言模型（LLMs）在理解破坏性天气影响方面能力的基准数据集。该数据集的构建源于气候变化适应研究中对社会脆弱性分析的迫切需求，通过系统化采集19-21世纪数字化报纸中记录的极端天气事件及其社会影响，建立了包含基础设施、农业、生态、经济、公共卫生及政治6大影响维度的标注体系。其创新性在于设计了四阶段数据处理流程（语料收集、OCR后校正、主题建模筛选和专家标注），首次将历史气候文本的多义性消解与时序叙事差异纳入模型评估框架，为气候适应系统的开发提供了关键研究基础设施。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决气候术语多义性（如'blizzard'既可指暴风雪也可指体育队名）和跨时代叙事差异对模型理解的干扰；在构建过程中，历史报纸的复杂版式导致OCR错误率高达23%，且需人工校正混合内容格式（如广告与正文重叠）带来的语义噪声。此外，标注体系需平衡现代灾害评估框架（Silva et al., 2022）与历史记录特殊性，例如19世纪文本中政治影响的隐含表达方式与当代显性描述的差异，这对标注一致性和模型评估效度构成显著挑战。

常用场景

经典使用场景

WXImpactBench数据集在评估大型语言模型（LLMs）对破坏性天气影响的理解能力方面具有经典应用场景。该数据集通过多标签分类和基于排名的问答任务，系统地测试了LLMs在识别和分类天气事件对社会各领域（如基础设施、农业、生态等）影响的能力。其独特的四阶段数据构建流程确保了数据的高质量，特别适用于研究气候变化适应系统的开发。

衍生相关工作

该数据集已催生多项重要研究：1) 基于检索增强生成（RAG）的气候问答系统开发；2) 针对历史文本OCR错误的LLM校正方法优化；3) 多时期语言风格适应性的模型微调技术。相关成果发表在ACL、EMNLP等顶级会议，并推动了CLLMate等跨模态基准的构建。

数据集最近研究