airPy
收藏github2023-12-12 更新2024-05-31 收录
下载链接:
https://github.com/kelsdoerksen/airPy
下载链接
链接失效反馈官方服务:
资源简介:
airPy包旨在从Google Earth Engine提取高分辨率卫星数据,并计算用于空气污染研究的机器学习就绪特征。
The airPy package is designed to extract high-resolution satellite data from Google Earth Engine and compute machine learning-ready features for air pollution research.
创建时间:
2023-08-03
原始信息汇总
数据集概述
数据集名称
airPy
数据集目的
用于从Google Earth Engine提取高分辨率卫星数据,并计算适用于机器学习的空气污染研究特征。
数据集功能
-
下载卫星数据
- 根据指定的纬度、经度和AOI缓冲区范围,从Google Earth Engine下载数据。
- 数据下载任务由用户生成的配置文件完全指定,包括数据集类型、纬度/经度点、分析周期和缓冲区大小。
- 数据可以保存为覆盖用户指定AOI范围的xarray格式,或作为每个给定纬度、经度点的单独图像。
-
生成机器学习准备特征
- 针对用户指定的AOI上的每个纬度、经度点,计算相关统计特征。
- 特征计算基于以下数据集:MODIS土地覆盖年度产品、MODIS Fire_cci烧毁区域像素产品、全球网格化人口版本4.11和VIIRS夜间日/夜波段复合版本1。
- 根据指定的时间节奏计算特征,对于缺乏卫星覆盖的数据,设置为NaN或填充特定值以避免计算错误。
数据集操作流程
- 在MOMO-Chem模型输出的11.1x11.1km空间分辨率下,针对每个纬度、经度点:
- 查询感兴趣的GEE数据集。
- 在感兴趣点周围创建一个约55.5km半径的缓冲区。
- 从缓冲区AOI提取数据。
- 处理感兴趣的特征(例如,从世界人口数据集中每个网格点的最大人口,从MODIS数据集中每个土地覆盖类的百分比等)。
数据集配置和运行
- 使用
GenerateConfig类生成配置字典,并通过python run_airpy.py命令运行airPy管道。 - 可配置参数包括:GEE数据集名称、区域、日期、分析类型、是否添加时间组件、缓冲区大小和输出目录。
数据集测试
- 使用
pytest测试airpy文件夹中的脚本,测试脚本存储在airpy/tests文件夹中。
搜集汇总
数据集介绍

构建方式
airPy数据集通过Google Earth Engine平台获取高分辨率卫星数据,并结合用户自定义的配置文件进行数据下载和处理。用户需指定经纬度、分析区域范围、时间周期及缓冲区大小等参数,数据可以以xarray格式保存,或按经纬度点生成独立图像。此外,airPy还从多个卫星数据集中提取与空气污染研究相关的统计特征,如土地利用类型、火灾区域、人口密度等,确保数据适用于机器学习模型的训练。
使用方法
使用airPy数据集时,用户需通过配置文件指定数据提取的参数,包括数据集类型、地理区域、时间范围、缓冲区大小等。通过运行`run_airpy.py`脚本,用户可以启动数据处理流程,生成机器学习所需的特征数据。airPy支持将数据保存为CSV或NetCDF格式,便于后续分析。此外,airPy还提供了详细的测试脚本和文档,帮助用户快速上手并验证数据处理流程的正确性。
背景与挑战
背景概述
airPy数据集由Kelsey Doerksen等人于2023年开发,旨在通过Google Earth Engine提取高分辨率卫星数据,并生成适用于机器学习研究的统计特征,以支持空气污染研究。该工具的核心功能包括从Google Earth Engine下载卫星数据,并根据用户指定的经纬度和区域范围生成机器学习所需的特征。数据集涵盖了多种卫星数据产品,如MODIS土地覆盖、全球人口密度、火灾燃烧区域等。该数据集的研究成果已在NeurIPS 2023的机器学习与物理科学研讨会上发表,展示了其在全球空气质量估计中的物理模型偏差校正方面的应用潜力。
当前挑战
airPy数据集在构建和应用过程中面临多重挑战。首先,数据提取和处理的复杂性较高,用户需要精确配置多个参数,如经纬度、时间范围、缓冲区大小等,以确保数据的准确性和完整性。其次,卫星数据的覆盖范围和时间分辨率存在局限性,某些区域或时间段的数据可能缺失,导致特征计算时出现NaN值或需要填充默认值。此外,Google Earth Engine的API使用限制和数据处理能力也对大规模数据提取提出了挑战,特别是在处理高分辨率数据时,计算资源和时间成本显著增加。最后,如何将提取的特征有效整合到机器学习模型中,尤其是时间序列数据的处理,仍需进一步优化。
常用场景
经典使用场景
airPy数据集在空气污染研究中展现了其独特的价值,尤其是在高分辨率卫星数据的提取与处理方面。通过Google Earth Engine平台,airPy能够根据用户指定的经纬度和区域范围,下载并处理多种卫星数据,如MODIS土地覆盖、火灾燃烧面积、全球人口密度等。这些数据经过处理后,生成了适合机器学习模型使用的特征,为空气质量的预测和监测提供了强有力的数据支持。
解决学术问题
airPy数据集解决了空气污染研究中数据获取与处理的难题。传统方法往往受限于数据分辨率低、覆盖范围有限或处理流程复杂等问题。airPy通过自动化流程,高效地从多源卫星数据中提取关键特征,并生成机器学习友好的数据集。这不仅简化了数据预处理的工作,还为全球范围内的空气质量研究提供了高质量的数据基础,推动了相关领域的学术进展。
实际应用
在实际应用中,airPy数据集被广泛用于空气质量监测与预测模型的开发。例如,在城市规划中,airPy提供的高分辨率人口密度和土地利用数据可以帮助评估空气污染对居民健康的影响。此外,airPy生成的火灾燃烧面积数据也被用于森林火灾后的空气质量评估,为应急响应和环境保护提供了科学依据。
数据集最近研究
最新研究方向
近年来,随着全球空气污染问题的日益严重,利用卫星数据进行空气质量研究成为了环境科学领域的热点。airPy数据集通过整合Google Earth Engine的高分辨率卫星数据,为机器学习模型提供了丰富的特征数据,支持了空气质量预测和污染源追踪等研究。特别是在深度学习与物理模型结合的领域,airPy数据集的应用显著提升了全球空气质量估计的准确性。例如,2023年NeurIPS机器学习与物理科学研讨会上,研究者利用airPy数据集开发了深度学习模型,成功校正了全球空气质量估计中的物理模型偏差。这一进展不仅推动了环境科学的前沿研究,也为政策制定者提供了更为精准的数据支持。
以上内容由遇见数据集搜集并总结生成



