five

NOAA Global Historical Climatology Network Daily (GHCN-D)

收藏
github2022-12-21 更新2024-05-31 收录
下载链接:
https://github.com/MarcosMJD/ghcn-d
下载链接
链接失效反馈
官方服务:
资源简介:
NOAA全球历史气候学网络每日数据集(GHCN-D)是一个包含全球陆地区域每日观测数据的数据集(例如TMAX,SNOW等)。它包含来自全球陆地站的基本观测数据,每日更新。数据以CSV格式存储,每个文件对应一个年份,从1763年至今,并以此命名。每个文件包含该年内所有站点的所有天气观测数据。站点和国家的详细信息,包括地理位置,存储在单独的文件中。

The NOAA Global Historical Climatology Network Daily Dataset (GHCN-D) is a comprehensive dataset encompassing daily observational data from terrestrial regions across the globe (e.g., TMAX, SNOW, etc.). It incorporates fundamental observational data from terrestrial stations worldwide, updated on a daily basis. The data is stored in CSV format, with each file corresponding to a specific year, named accordingly, and spanning from 1763 to the present. Each file contains all weather observation data for all stations within that year. Detailed information about the stations and countries, including geographical locations, is stored in separate files.
创建时间:
2022-03-22
原始信息汇总

数据集描述

NOAA全球历史气候网络每日数据(GHCN-D)

  • 来源:NOAA
  • 内容:包含全球陆地区域的每日观测数据(如TMAX, SNOW等)
  • 更新频率:每日更新
  • 数据格式:CSV
  • 数据范围:从1763年至今
  • 文件结构:每个文件对应一年,包含该年所有站点的所有天气观测数据
  • 附加信息:站点和国家的详细信息(包括地理位置)存储在单独的文件中

数据集处理目标

  • 开发数据基础设施,包括数据管道和仪表板
  • 创建数据处理管道,将数据从数据湖移动到数据仓库
  • 在数据仓库中转换数据,准备仪表板数据
  • 创建仪表板,支持高级分析任务

技术栈

  • 云服务:GCP
  • 基础设施即代码:Terraform
  • 工作流编排:Airflow
  • 数据仓库:BigQuery
  • 数据湖:GCS
  • 批处理/转换:dbt cloud 或 DataProc/Spark
  • 流处理:无
  • 仪表板:Google Data Studio

数据处理流程

  1. 数据摄取
    • 使用Airflow从AWS桶获取数据到GCS,再到BigQuery
    • 创建不同的DAG处理不同类型的数据(如站
搜集汇总
数据集介绍
main_image_url
构建方式
NOAA全球历史气候网络日数据集(GHCN-D)的构建依托于全球范围内的陆地气象站,自1763年至今,每日收集包括最高温度、最低温度、降水量等多种气象观测数据。数据集以CSV格式存储,每年一个文件,文件内容涵盖该年度所有气象站的观测记录。此外,数据集还提供了气象站的地理位置信息,这些信息存储于独立的文件中,便于用户进行地理位置相关的分析。
使用方法
使用GHCN-D数据集时,用户可以通过GitHub提供的详细指南进行数据管道的搭建。首先,使用Terraform在Google Cloud Platform(GCP)上创建数据存储和数据处理的基础设施。随后,通过Airflow进行数据管道的编排,将数据从AWS S3桶导入到GCS,并进一步加载到BigQuery中进行处理。用户可以选择使用dbt进行数据转换,或通过DataProc进行Spark处理。最终,数据可以通过Google Data Studio进行可视化展示,支持用户进行高级的气象数据分析。
背景与挑战
背景概述
NOAA全球历史气候网络日数据集(GHCN-D)由美国国家海洋和大气管理局(NOAA)创建,旨在提供全球陆地地区的每日气象观测数据。该数据集自1763年起持续更新,涵盖了全球超过16万个气象站的观测记录,累计数据量超过17.5亿条。GHCN-D的核心研究问题在于如何高效处理和分析这些海量数据,以支持气候变化研究、极端天气事件分析等应用。该数据集对气象学、气候科学及相关领域的研究具有深远影响,为全球气候变化趋势的量化分析提供了重要数据支持。
当前挑战
GHCN-D数据集面临的主要挑战包括数据处理的复杂性和数据质量的保障。首先,由于数据量庞大且时间跨度长,如何高效地进行数据提取、转换和加载(ETL)成为关键问题。其次,数据来源多样,不同气象站的观测标准和质量参差不齐,如何确保数据的一致性和准确性是另一大挑战。此外,数据的地理位置信息处理也较为复杂,尤其是在进行跨区域或全球范围的分析时,如何有效整合地理信息并优化查询性能是亟待解决的问题。构建过程中,数据存储、分区和集群策略的设计也对数据处理效率提出了高要求。
常用场景
经典使用场景
NOAA Global Historical Climatology Network Daily (GHCN-D) 数据集广泛应用于气候变化的长期趋势分析。研究人员通过该数据集能够追踪全球范围内每日的气温、降水量、积雪等气象要素的变化,进而揭示气候系统的演变规律。该数据集的高时间分辨率和全球覆盖范围使其成为气候模型验证和历史气候重建的重要工具。
解决学术问题
GHCN-D 数据集解决了气候研究中数据稀缺和标准化不足的问题。通过整合全球160,000多个气象站的观测数据,该数据集为气候学家提供了高质量、一致性的历史气象记录。这些数据支持了气候变化检测、极端天气事件分析以及气候模型验证等关键研究,显著提升了气候科学的可靠性和预测能力。
实际应用
在实际应用中,GHCN-D 数据集被广泛用于农业规划、水资源管理以及灾害预警系统。例如,农业部门利用该数据集分析历史气温和降水模式,优化作物种植策略;水利部门则通过积雪和降水数据预测河流流量,制定防洪和供水计划。此外,该数据集还为城市规划和能源管理提供了重要参考。
数据集最近研究
最新研究方向
近年来,NOAA全球历史气候网络日数据集(GHCN-D)在气候科学和数据分析领域的研究方向主要集中在数据的高效处理与可视化分析上。随着全球气候变化问题的日益严峻,研究者们利用该数据集进行长期气候趋势分析、极端天气事件的频率与强度研究,以及气候模型的验证与改进。特别是在大数据技术的推动下,研究者们通过云计算平台(如GCP)和先进的数据处理工具(如Airflow、dbt、Spark等),实现了对海量气象数据的高效处理与分析。此外,结合地理信息系统(GIS)技术,研究者们能够更精确地分析不同地区的气候变化模式,为政策制定者提供科学依据。GHCN-D数据集的应用不仅推动了气候科学的发展,也为应对全球气候变化提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作