WEATHERARCHIVE-BENCH
收藏arXiv2025-10-07 更新2025-11-20 收录
下载链接:
https://anonymous.4open.science/r/WeatherArchive-Bench/README.md
下载链接
链接失效反馈官方服务:
资源简介:
WEATHERARCHIVE-BENCH是一个用于评估检索增强推理系统在历史天气档案上的性能的大型基准数据集。数据集由来自魁北克南部地区的超过一百万份OCR解析的历史档案文档组成,这些文档经过预处理和人工审核以确保质量。数据集包含两个任务:WeatherArchive-Retrieval和WeatherArchive-Assessment。WeatherArchive-Retrieval评估检索模型识别相关历史段落的能力,而WeatherArchive-Assessment评估大型语言模型从档案天气叙事中分类社会脆弱性和恢复力指标的能力。该数据集旨在帮助气候科学家更好地理解社会对极端天气事件的响应,并为未来气候政策提供基于证据的见解。
提供机构:
McGill University University of Waterloo Universit ́e de Montr ́eal ETH Zurich Beijing Jiaotong University
创建时间:
2025-10-07
搜集汇总
数据集介绍

构建方式
在历史气象档案研究领域,WEATHERARCHIVE-BENCH通过系统化流程构建了首个大规模评估基准。该数据集从专有档案机构收集了涵盖1880-1899年与1995-2014年两个时段的新闻文献,经过光学字符识别技术数字化后,采用GPT-4o进行文本纠错与质量增强处理。通过滑动窗口分割策略将文献切分为103万条标准化文本段落,并基于气象灾害关键词频率排序与专家人工验证,最终精选335条高质量文本作为核心评估样本。
特点
该数据集展现出三大核心特征:其文本来源具有历史纵深性,完整保留了19世纪末至21世纪初的气象记录与社会响应叙事;内容结构呈现多维度复杂性,既包含突发性天气事件描述,又涵盖社会脆弱性与恢复力的隐性指标;数据质量经过双重保障,既通过自动化流程消除OCR噪声,又经由领域专家进行内容有效性验证。特别值得注意的是,数据集中大量存在的古旧术语与当代气候概念的语义鸿沟,为评估模型的历史语境理解能力提供了独特挑战。
使用方法
在使用该数据集时,研究者可基于其设计的双重评估框架展开实验。WeatherArchive-Retrieval任务要求检索模型从百万级文本库中定位与特定气象事件相关的段落,评估指标包括多层级召回率与标准化折损累计增益;WeatherArchive-Assessment任务则通过构建证据链查询,测试大语言模型对气候影响与社会响应的推理能力,具体涵盖脆弱性三维度分类与恢复力多尺度评估。实验过程中需特别注意历史术语的语义演化特征,建议采用混合检索策略以平衡词汇匹配与语义理解。
背景与挑战
背景概述
WEATHERARCHIVE-BENCH数据集由麦吉尔大学、滑铁卢大学、蒙特利尔大学等机构的研究团队于2025年联合创建,旨在解决历史天气档案中社会脆弱性与恢复力分析的挑战。该数据集整合了超过一百万份经过OCR处理的档案新闻片段,聚焦于极端天气事件对社会系统的影响,填补了气候科学领域缺乏大规模历史定性数据评估框架的空白。通过引入检索增强生成系统的首个标准化评测基准,该数据集推动了气候适应规划与灾害应对策略的智能化发展,为跨学科研究提供了关键基础设施。
当前挑战
该数据集核心挑战在于历史档案的复杂语义解析与领域知识融合。在领域问题层面,模型需准确识别社会脆弱性指标如暴露度、敏感性与适应能力,并区分短期吸收能力与长期转型恢复力,但历史术语演变与噪声文本导致语义歧义。构建过程中,档案数字化质量参差不齐,OCR错误频发,且叙事结构混杂无关内容,增加了检索系统定位相关段落的难度。同时,语言模型对隐含社会关系推理能力不足,难以从非结构化叙述中提取系统性气候影响洞察。
常用场景
经典使用场景
在历史气候档案分析领域,WEATHERARCHIVE-BENCH作为首个针对历史天气档案的检索增强生成基准,其经典使用场景聚焦于评估信息检索系统与大型语言模型在百万级档案片段中定位极端天气事件相关段落的能力。该数据集通过模拟气候研究者的工作流程,构建了包含历史术语识别、光学字符识别噪声处理及社会脆弱性指标分类的多层次任务框架,为优化面向气候适应的智能系统提供标准化测试环境。
解决学术问题
该数据集有效解决了历史气候研究中非结构化档案难以转化为可操作知识的核心难题。通过构建大规模标注档案库,它首次系统评估了检索增强生成技术对历史术语的语义理解能力,揭示了稠密检索模型在识别过时气象表达时的局限性。其意义在于建立了连接历史叙事与现代气候政策的桥梁,为理解社区长期脆弱性模式、设计韧性干预策略提供了数据驱动的理论基础。
衍生相关工作
该数据集催生了多个跨学科研究方向,包括基于历史语料的气候术语演化分析、面向OCR噪声的鲁棒性检索模型优化等。其构建方法启发了类似历史档案数字化项目,如经济史领域的金融危机文献库、环境史中的生态变迁记录库等。相关研究进一步拓展了多尺度社会韧性评估框架,推动了时空维度气候影响推理模型的发展。
以上内容由遇见数据集搜集并总结生成



