WeatherQA_SFT

Hugging Face2025-04-06 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/ZhanxiangHua/WeatherQA_SFT

下载链接

链接失效反馈

官方服务：

资源简介：

WeatherQA_SFT是一个监督微调（SFT）数据集，从WeatherQA数据集派生而来，用于视觉/多模态语言模型的训练。该数据集聚焦于美国本土的严重天气地理位置定位和潜在危险分析。它包含了超过7000个图像-文本对，图像涵盖复杂的天气模式，如环境不稳定性参数、地表观测和雷达反射率合成。每个图像都与两项多项选择题问答任务的文本配对，用于预测可能受影响的地理区域和评估严重对流天气事件的可能性。

WeatherQA_SFT is a supervised fine-tuning (SFT) dataset derived from the WeatherQA dataset, designed for training visual/multimodal language models. This dataset focuses on severe weather geographic localization and potential hazard analysis within the contiguous United States. It contains over 7000 image-text pairs, where the images cover complex weather patterns including environmental instability parameters, surface observations, and radar reflectivity composites. Each image is paired with text corresponding to two multiple-choice question answering tasks, which are used to predict potentially affected geographic regions and assess the likelihood of severe convective weather events.

创建时间：

2025-04-01

原始信息汇总

WeatherQA_SFT数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 视觉问答、多项选择
语言: 英语
标签: 天气、气象学、风暴
规模: 1K<n<10K

数据集结构

配置名称: default
数据文件:
- 训练集: data/train-* (7,304个样本)
- 测试集: data/test-* (600个样本)

特征描述

id: 字符串类型
image: 图像序列
conversations: 列表结构，包含:
- from: 字符串类型
- value: 字符串类型

数据集统计

训练集大小: 6,078,013,649.648字节
测试集大小: 499,317,765.0字节
下载大小: 6,564,037,221字节
总数据集大小: 6,577,331,414.648字节

数据集内容

来源: 基于WeatherQA数据集，专为监督微调(SFT)设计
格式: sharegpt格式
焦点: 美国本土(CONUS)的恶劣天气地理定位和潜在危害分析
数据量: 超过7,000个图像-文本对
时间范围:
- 训练集: 2014-2019年
- 测试集: 2020年

图像内容

复杂天气模式，包括:
- 环境不稳定参数
- 地表观测
- 雷达反射率合成图

任务设计

受影响区域预测: 识别可能受影响的地区
强对流分类: 评估强对流天气事件的可能性

引用信息

bibtex @article {ma2024weatherqa, title={WeatherQA: Can Multimodal Language Models Reason about Severe Weather?}, author={Ma, Chengqian and Hua, Zhanxiang and Anderson-Frey, Alexandra and Iyer, Vikram and Liu, Xin and Qin, Lianhui}, journal={arXiv preprint arXiv:2406.11217}, year={2024} }

相关资源

WeatherQA GitHub仓库

搜集汇总

数据集介绍

构建方式

WeatherQA_SFT数据集基于WeatherQA数据集构建，采用监督微调（SFT）格式，专为视觉/多模态语言模型设计。数据集涵盖2014至2019年的训练集和2020年的测试集，包含超过7,000组图像-文本对。图像数据捕捉了复杂的气象模式，包括环境不稳定参数、地表观测和雷达反射率合成图。文本数据则通过两步多选问答任务进行标注，包括受影响区域预测和强对流天气分类，旨在支持动态气象现象的多模态推理研究。

使用方法

使用者可通过HuggingFace平台获取数据集，按照train-test划分加载图像和对话格式的标注数据。典型应用场景包括：加载预训练视觉编码器提取图像特征，结合语言模型处理文本问答任务；或端到端训练多模态模型完成气象推理。数据集的对话结构（conversations字段）支持直接适配LLM微调框架，而图像序列（image字段）保留了原始气象数据的时空维度。建议研究者参考原始论文的方法论，结合具体任务设计评估协议，特别注意测试集的时间外推特性对模型泛化能力的验证价值。

背景与挑战

背景概述

WeatherQA_SFT数据集由Chengqian Ma等研究人员于2024年创建，旨在推动多模态语言模型在气象领域的应用研究。该数据集源自WeatherQA基准数据集，专注于美国本土（CONUS）强天气地理定位与灾害分析，包含2014至2020年间超过7,000组图像-文本对。数据涵盖环境不稳定参数、地面观测和雷达反射率复合图等复杂天气模式，通过两阶段多选题任务（受影响区域预测与强对流分类）构建监督微调格式。作为首个将深度学习方法引入强天气推理的跨模态数据集，其通过融合卫星、雷达等多源气象数据，为极端天气事件的可解释性分析提供了重要基准。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，强天气系统具有时空动态性强、多尺度特征耦合的特点，模型需同时处理非结构化图像数据与专业气象术语的语义对齐；雷达回波衰减伪影与卫星云图的光照干扰更增加了模式识别的复杂度。在构建过程中，数据采集需协调多源异构气象数据的时空对齐，包括协调不同传感器分辨率与采样频率；标注阶段要求气象专家对对流天气的形态学特征进行双重验证，确保多选题选项涵盖天气学典型场景的同时避免引导性偏差。

常用场景

经典使用场景

在气象学与人工智能交叉领域，WeatherQA_SFT数据集为多模态语言模型的监督微调提供了独特的研究平台。该数据集通过整合2014-2020年美国本土的天气图像与文本描述，特别适用于训练模型理解复杂气象模式与空间定位能力。其经典应用场景体现在模型需要同时处理雷达反射率合成图、环境不稳定参数等专业气象数据，并回答关于受影响区域预测和强对流天气分类的两阶段选择题。

解决学术问题

该数据集有效解决了气象领域多模态推理的三大核心问题：跨模态表征对齐、时空动态建模以及灾害性天气的因果推断。通过提供精确标注的图像-文本对，研究者能够验证模型在极端天气事件中的地理定位精度，填补了传统气象预报模型与新兴多模态技术之间的研究空白。其构建方法论为后续恶劣天气智能分析系统奠定了基准框架。

实际应用

在实际业务场景中，该数据集支撑的模型可部署于气象预警系统，通过实时解析卫星云图与雷达数据，辅助预报员快速识别龙卷风、冰雹等强对流天气的潜在发生区域。其多模态推理能力在应急管理决策支持、航空路线动态调整等领域展现出显著价值，特别是在处理突发性、局地性极端天气事件时表现出传统数值预报所欠缺的时效性优势。

数据集最近研究