five

NOAA Global Historical Climatology Network Daily (GHCN-D)|气候数据数据集|历史气候数据集

收藏
github2022-12-21 更新2024-05-31 收录
气候数据
历史气候
下载链接:
https://github.com/MarcosMJD/ghcn-d
下载链接
链接失效反馈
资源简介:
NOAA全球历史气候学网络每日数据集(GHCN-D)是一个包含全球陆地区域每日观测数据的数据集(例如TMAX,SNOW等)。它包含来自全球陆地站的基本观测数据,每日更新。数据以CSV格式存储,每个文件对应一个年份,从1763年至今,并以此命名。每个文件包含该年内所有站点的所有天气观测数据。站点和国家的详细信息,包括地理位置,存储在单独的文件中。

The NOAA Global Historical Climatology Network Daily Dataset (GHCN-D) is a comprehensive dataset encompassing daily observational data from terrestrial regions across the globe (e.g., TMAX, SNOW, etc.). It incorporates fundamental observational data from terrestrial stations worldwide, updated on a daily basis. The data is stored in CSV format, with each file corresponding to a specific year, named accordingly, and spanning from 1763 to the present. Each file contains all weather observation data for all stations within that year. Detailed information about the stations and countries, including geographical locations, is stored in separate files.
创建时间:
2022-03-22
原始信息汇总

数据集描述

NOAA全球历史气候网络每日数据(GHCN-D)

  • 来源:NOAA
  • 内容:包含全球陆地区域的每日观测数据(如TMAX, SNOW等)
  • 更新频率:每日更新
  • 数据格式:CSV
  • 数据范围:从1763年至今
  • 文件结构:每个文件对应一年,包含该年所有站点的所有天气观测数据
  • 附加信息:站点和国家的详细信息(包括地理位置)存储在单独的文件中

数据集处理目标

  • 开发数据基础设施,包括数据管道和仪表板
  • 创建数据处理管道,将数据从数据湖移动到数据仓库
  • 在数据仓库中转换数据,准备仪表板数据
  • 创建仪表板,支持高级分析任务

技术栈

  • 云服务:GCP
  • 基础设施即代码:Terraform
  • 工作流编排:Airflow
  • 数据仓库:BigQuery
  • 数据湖:GCS
  • 批处理/转换:dbt cloud 或 DataProc/Spark
  • 流处理:无
  • 仪表板:Google Data Studio

数据处理流程

  1. 数据摄取
    • 使用Airflow从AWS桶获取数据到GCS,再到BigQuery
    • 创建不同的DAG处理不同类型的数据(如站
AI搜集汇总
数据集介绍
main_image_url
构建方式
NOAA全球历史气候网络日数据集(GHCN-D)的构建依托于全球范围内的陆地气象站,自1763年至今,每日收集包括最高温度、最低温度、降水量等多种气象观测数据。数据集以CSV格式存储,每年一个文件,文件内容涵盖该年度所有气象站的观测记录。此外,数据集还提供了气象站的地理位置信息,这些信息存储于独立的文件中,便于用户进行地理位置相关的分析。
使用方法
使用GHCN-D数据集时,用户可以通过GitHub提供的详细指南进行数据管道的搭建。首先,使用Terraform在Google Cloud Platform(GCP)上创建数据存储和数据处理的基础设施。随后,通过Airflow进行数据管道的编排,将数据从AWS S3桶导入到GCS,并进一步加载到BigQuery中进行处理。用户可以选择使用dbt进行数据转换,或通过DataProc进行Spark处理。最终,数据可以通过Google Data Studio进行可视化展示,支持用户进行高级的气象数据分析。
背景与挑战
背景概述
NOAA全球历史气候网络日数据集(GHCN-D)由美国国家海洋和大气管理局(NOAA)创建,旨在提供全球陆地地区的每日气象观测数据。该数据集自1763年起持续更新,涵盖了全球超过16万个气象站的观测记录,累计数据量超过17.5亿条。GHCN-D的核心研究问题在于如何高效处理和分析这些海量数据,以支持气候变化研究、极端天气事件分析等应用。该数据集对气象学、气候科学及相关领域的研究具有深远影响,为全球气候变化趋势的量化分析提供了重要数据支持。
当前挑战
GHCN-D数据集面临的主要挑战包括数据处理的复杂性和数据质量的保障。首先,由于数据量庞大且时间跨度长,如何高效地进行数据提取、转换和加载(ETL)成为关键问题。其次,数据来源多样,不同气象站的观测标准和质量参差不齐,如何确保数据的一致性和准确性是另一大挑战。此外,数据的地理位置信息处理也较为复杂,尤其是在进行跨区域或全球范围的分析时,如何有效整合地理信息并优化查询性能是亟待解决的问题。构建过程中,数据存储、分区和集群策略的设计也对数据处理效率提出了高要求。
常用场景
经典使用场景
NOAA Global Historical Climatology Network Daily (GHCN-D) 数据集广泛应用于气候变化的长期趋势分析。研究人员通过该数据集能够追踪全球范围内每日的气温、降水量、积雪等气象要素的变化,进而揭示气候系统的演变规律。该数据集的高时间分辨率和全球覆盖范围使其成为气候模型验证和历史气候重建的重要工具。
解决学术问题
GHCN-D 数据集解决了气候研究中数据稀缺和标准化不足的问题。通过整合全球160,000多个气象站的观测数据,该数据集为气候学家提供了高质量、一致性的历史气象记录。这些数据支持了气候变化检测、极端天气事件分析以及气候模型验证等关键研究,显著提升了气候科学的可靠性和预测能力。
实际应用
在实际应用中,GHCN-D 数据集被广泛用于农业规划、水资源管理以及灾害预警系统。例如,农业部门利用该数据集分析历史气温和降水模式,优化作物种植策略;水利部门则通过积雪和降水数据预测河流流量,制定防洪和供水计划。此外,该数据集还为城市规划和能源管理提供了重要参考。
数据集最近研究
最新研究方向
近年来,NOAA全球历史气候网络日数据集(GHCN-D)在气候科学和数据分析领域的研究方向主要集中在数据的高效处理与可视化分析上。随着全球气候变化问题的日益严峻,研究者们利用该数据集进行长期气候趋势分析、极端天气事件的频率与强度研究,以及气候模型的验证与改进。特别是在大数据技术的推动下,研究者们通过云计算平台(如GCP)和先进的数据处理工具(如Airflow、dbt、Spark等),实现了对海量气象数据的高效处理与分析。此外,结合地理信息系统(GIS)技术,研究者们能够更精确地分析不同地区的气候变化模式,为政策制定者提供科学依据。GHCN-D数据集的应用不仅推动了气候科学的发展,也为应对全球气候变化提供了重要的数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录

The Global Forest Watch (GFW)

The Global Forest Watch (GFW) 是一个全球森林监测平台,提供关于森林覆盖变化、火灾、森林砍伐和土地利用的实时数据和分析。数据集包括全球森林覆盖地图、森林砍伐警报、火灾热点、土地覆盖变化等信息。

globalforestwatch.org 收录