CarbonSense

Name: CarbonSense
Creator: 魁北克人工智能研究所与蒙特利尔理工学院
Published: 2024-06-07 21:47:40
License: 暂无描述

arXiv2024-06-07 更新2024-06-17 收录

下载链接：

https://zenodo.org/records/11403428

下载链接

链接失效反馈

官方服务：

资源简介：

CarbonSense是由魁北克人工智能研究所与蒙特利尔理工学院创建的首个机器学习就绪数据集，专注于数据驱动的碳通量建模。该数据集整合了来自全球385个地点的碳通量测量数据、气象预测因子和卫星图像，总计超过2700万小时的观测数据。数据收集自主要的碳通量网络，并通过严格的处理流程确保数据的标准化和一致性。CarbonSense的应用领域主要集中在气候变化研究，旨在通过高精度的碳通量预测，提升决策者对生态系统健康和碳吸收能力的理解。

CarbonSense is the first machine learning-ready dataset focused on data-driven carbon flux modeling, developed by the Quebec Artificial Intelligence Institute and École Polytechnique de Montréal. This dataset integrates carbon flux measurement data, meteorological predictive factors, and satellite imagery from 385 global locations, with a total of over 27 million hours of observational data. The data was collected from major global carbon flux networks and underwent a rigorous processing workflow to ensure standardization and consistency across the dataset. CarbonSense is primarily applied in climate change research, aiming to enhance decision-makers' understanding of ecosystem health and carbon sequestration capacity through high-precision carbon flux forecasting.

提供机构：

魁北克人工智能研究所与蒙特利尔理工学院

创建时间：

2024-06-07

搜集汇总

数据集介绍

构建方式

在陆地碳通量建模领域，数据标准化长期缺失。CarbonSense数据集通过整合全球385个涡度协方差站点的实测数据，构建了首个机器学习就绪的多模态数据集。其构建流程始于对FLUXNET 2015、ICOS 2023、Ameriflux 2023等主要网络的数据融合，采用ONEFlux处理管道确保编码与单位统一。气象数据经过修剪，移除了土壤温湿度等缺失率高的变量，以减少插值误差的累积。地理空间数据则源自MODIS产品，以每个站点为中心提取4公里见方的MCD43A4光谱影像与MCD43A2冰雪覆盖分类。最终，通过最小-最大归一化处理，将周期变量映射至[-1,1)区间，非周期变量映射至[-0.5,0.5)区间，形成标准化数据集。整个流程代码开源，支持研究者根据需求调整变量包容度与数据筛选严格性。

特点

CarbonSense数据集的核心特征在于其多模态与全球覆盖性。它集成了超过2700万小时观测数据，涵盖气象变量、卫星遥感影像及碳通量目标，为数据驱动的碳通量建模提供了统一基准。数据集具有显著的空间与生态类型不平衡性，北美与欧洲站点及常绿针叶林、草地等生态系统占比过高，这反映了当前地面观测网络的数据可及性现实。其分区存储结构允许研究者灵活选择站点，针对特定生态系统建模或探索分布外泛化能力。此外，数据集遵循CC-BY-4.0许可，融合了来自公共领域与标准化网络的数据，确保了使用的开放性与可重复性。这种结构既支持传统表格方法，也为深度学习模型处理时空序列与多模态融合提供了理想平台。

使用方法

使用CarbonSense数据集时，研究者需关注其生态与地理分布的不平衡性。数据集按站点目录组织，每个目录包含气象数据、地理空间数据及元数据，支持根据实验目标自定义训练与测试集划分。例如，可针对特定生态系统优化性能，或设计分布外泛化实验。随数据集提供的PyTorch数据加载器示例，允许用户指定目标碳通量类型、纳入站点及训练上下文窗口长度。在模型评估方面，推荐采用纳什-萨特克利夫模型效率系数作为主要指标，因其能考虑不同生态系统的通量自然方差，提供更公平的性能比较。同时，鼓励进行定性分析，可视化模型输出与实测数据的对比，以深入理解模型在特定生态条件下的行为局限与改进方向。

背景与挑战

背景概述

陆地碳通量是评估生物圈健康及其吸收人为二氧化碳排放能力的关键指标。为应对传统涡度协方差测量方法的空间局限性，数据驱动的碳通量建模领域应运而生，旨在利用生物物理数据预测碳通量。然而，该领域长期缺乏标准化的数据集以促进模型间的比较。在此背景下，CarbonSense数据集于2024年由Mila魁北克人工智能研究所、蒙特利尔综合理工学院等机构的研究团队联合创建。作为首个专为机器学习准备的碳通量建模数据集，它整合了全球385个站点的实测碳通量、气象预测因子及卫星遥感影像，提供了超过2700万小时的观测数据。该数据集的发布旨在降低深度学习研究者进入该领域的门槛，推动多模态深度学习技术在碳通量预测中的应用，从而为气候变化研究和生态系统管理提供更精准的信息支持。

当前挑战

CarbonSense数据集致力于解决的核心领域挑战是精准预测陆地生态系统的碳通量，这是一个复杂的回归问题，其目标变量受到生态系统组成、气象条件、地形地质及干扰事件等多重因素的交互影响。具体挑战包括：如何有效整合多模态异质数据（如时序气象数据与空间卫星影像），以捕捉碳通量的时空动态；以及如何处理数据中普遍存在的缺失值和覆盖间隙。在数据集构建过程中，研究团队面临的主要挑战源于数据源的异构性与地理分布偏差。例如，尽管整合了FLUXNET、ICOS和AmeriFlux等多个网络的涡度协方差数据，但站点分布严重偏向北美和欧洲，导致非洲、中亚和南美等地区代表性不足。此外，不同生态系统的样本量存在显著不平衡，如草地站点多达64个，而落叶针叶林站点仅1个，这种偏差可能影响模型在 underrepresented 生态系统上的泛化性能。同时，处理来自不同网络的、存在重叠和不同质量标记的原始数据，并进行标准化融合与归一化，也是一项艰巨的工程挑战。

常用场景

经典使用场景

在陆地生态系统碳通量建模领域，CarbonSense数据集为数据驱动的碳通量建模提供了首个标准化、机器学习就绪的多模态基准平台。该数据集整合了全球385个涡度协方差站点的实测碳通量数据、气象观测变量以及中分辨率成像光谱仪卫星影像，构建了超过2700万小时观测值的综合资源。其经典应用场景体现在为跨生态系统碳通量预测模型提供统一的训练与评估框架，特别是通过融合气象时序数据与遥感空间特征，支持开发能够捕捉生态系统碳交换时空动态的先进机器学习模型。

实际应用

该数据集的实际应用价值体现在提升全球碳循环监测与气候政策制定的科学基础。基于CarbonSense训练的模型能够生成高时空分辨率的区域至全球碳通量产品，为评估陆地生态系统碳汇能力、预测气候变化下的碳循环反馈提供关键工具。在生态管理实践中，此类模型可支持精准量化森林、湿地等生态系统的固碳效能，指导基于自然的碳中和路径设计。此外，数据集提供的标准化基准促进了学术界与业务部门在碳通量模拟技术上的协同创新，为全球碳观测系统提供了可扩展的数据同化框架。

衍生相关工作

围绕CarbonSense衍生的经典工作主要体现在多模态深度学习架构的创新与跨学科方法融合。数据集作者提出的EcoPerceiver模型首次将感知器架构与傅里叶编码技术引入碳通量建模，通过窗口化交叉注意力机制实现了气象时序与遥感影像的高效融合。后续研究可在此基础上探索卷积神经网络与时空Transformer的混合架构，以更好捕捉地表覆盖的空间异质性。同时，该数据集激发了基于元学习的小样本碳通量预测、以及结合物理约束的神经微分方程建模等新兴方向，推动了数据驱动方法与生态过程模型的深度耦合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集