hblim/weather_data
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/hblim/weather_data
下载链接
链接失效反馈官方服务:
资源简介:
每日天气观测数据,从weather.gov网站的公共气象站时间序列页面抓取,这些页面列在weather_urls.txt中。主文件是weather_data.tsv,字段以制表符分隔,包含真实的标题行。Location字段存储气象站标识符,如KMDW。隐藏的.state/*.keys.txt文件仅用于去重。
Daily weather observations scraped from the public `weather.gov` station timeseries pages listed in `weather_urls.txt`. The main file is `weather_data.tsv`. Fields are tab-delimited with a real header row. `Location` stores the weather station identifier, such as `KMDW`. Hidden `.state/*.keys.txt` files are used only for deduplication.
提供机构:
hblim
搜集汇总
数据集介绍

构建方式
该数据集源自对美国国家气象局(weather.gov)公开气象站时间序列页面的系统性爬取,收录了逐日气象观测记录。数据以制表符分隔的TSV格式存储于主文件weather_data.tsv中,包含明确的表头行以标识各字段含义。其中,“Location”字段用于标识气象站代码,如KMDW,确保每个观测值均可追溯至具体站点。为保障数据质量,系统利用隐藏于.state目录下的.keys.txt文件执行去重操作,避免重复记录混入数据集中。
特点
weather_data数据集聚焦于时间序列预测与表格分类两大机器学习任务,具备显著的多功能性。其数据均以英文呈现,并附带“天气”与“表格”等标签,便于按主题检索。正因为数据源自官方气象站实录,观测频率与格式遵循标准化流程,确保了时间序列的连续性与可比性。这种高质量、结构化的数据特性,使得该数据集特别适合用于开发气象模式识别与短期预报模型。
使用方法
使用者可直接加载weather_data.tsv文件,利用制表符分隔特性将其解析为DataFrame或类似数据结构。针对时间序列预测任务,可按时间索引对数据进行切分,并选择适当的滑窗策略构建训练与测试样本;对于表格分类任务,则可将气象要素作为特征字段,提取标签列进行监督学习。分析时建议结合Location字段对站点进行分组,以评估模型在不同地理环境下的泛化能力。数据集采用MIT开源许可,便于学术研究与商业应用中的二次分发与集成。
背景与挑战
背景概述
本数据集旨在为时间序列预测与表格分类任务提供真实世界的气象观测数据,其内容源自美国国家气象局(weather.gov)公开的气象站时序页面。数据集由数据科学领域的研究人员于近年来创建,核心研究问题聚焦于如何利用历史气象记录进行精确的短期天气预测与分类建模。通过采集不同气象站的每日观测信息,该数据集为气象学与机器学习交叉领域提供了标准化的基准数据,推动了诸如温度趋势预测、降水分类等研究方向的进展,并对城市气象灾害预警系统的优化产生了积极影响。
当前挑战
该数据集所解决的领域问题是时间序列预测和表格数据分类中的现实观测稀疏性与噪声挑战,例如气象记录中的缺失值、传感器误差导致的异常点,以及不同站点间数据采集频率不一致等问题。而在构建过程中,研究人员面临了爬取公共网页时反爬机制的限制,以及从非结构化页面中提取、对齐与去重多站点数据的工程难题。此外,数据格式统一为制表符分隔的TSV文件,但隐含的键值文件用于去重,增加了预处理阶段的复杂性,要求研究者具备清洗与对齐异构时序数据的专业能力。
常用场景
经典使用场景
weather_data数据集为时间序列预测与表格数据分类任务提供了丰富的日常气象观测记录,涵盖多个气象站点的标准化数据。该数据集广泛应用于气象要素的短期预测,如温度、湿度、风速等变量的时序建模,利用历史观测值构建未来趋势的预测模型。同时,其结构化格式支持天气状态分类,例如通过特征组合判别晴雨、雾霾等天气现象,成为监督学习与无监督聚类方法在气象领域验证的经典基准。
实际应用
在实际场景中,weather_data被用于农业灌溉调度决策,通过预测降水与蒸散量优化水资源分配;支持能源行业的风电与光伏功率预测,结合气象参数提升新能源并网稳定性;在航空领域协助分析机场能见度与风切变风险,保障航班起降安全。此外,城市应急管理部门借助其数据构建暴雨内涝预警系统,实现了对灾害性天气的早期响应。
衍生相关工作
基于weather_data,衍生出了针对气象数据的时间序列扩散模型,用于生成高分辨率预报;工作如利用图神经网络融合多站点空间相关性,提升了区域天气预报精度;此外,结合对比学习的半监督分类框架被提出,缓解了标注数据不足的问题。该数据集还催生了可解释性气象归因研究,通过特征重要性分析揭示影响天气剧烈变化的关键驱动因子。
以上内容由遇见数据集搜集并总结生成



