VEDA数据集

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/NASA-IMPACT/veda-data

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库用于定义和提交VEDA数据集，数据集需要通过特定的流程加载到VEDA目录中，以便在VEDA仪表板上展示。数据集的提交包括描述、数据位置和联系人信息，并可能包含数据处理笔记本。

This repository is designated for defining and submitting the VEDA dataset. The dataset must be loaded into the VEDA directory through a specific process to be displayed on the VEDA dashboard. Submissions of the dataset include descriptions, data locations, and contact information, and may also include data processing notebooks.

创建时间：

2023-05-11

原始信息汇总

数据集概述

数据集用途

本数据集用于定义VEDA数据集，以便加载到VEDA目录中，并显示在VEDA Dashboard上。

数据集提交流程

提交数据集至VEDA目录前，需遵循VEDA用户文档中的数据集提交流程。
提交步骤包括：
1. 提供数据集描述
2. 指定数据位置（如S3、CMR等）
3. 提供与VEDA团队协作的联系人信息
4. 可选：提供数据处理示例笔记本

数据集结构

收集元数据 (`collections/`)

包含JSON文件，描述VEDA收集元数据（STAC）。
文件格式包括：
- 收集ID、类型、链接、标题、描述
- 空间和时间范围
- 许可证信息
- STAC扩展和版本
- 渲染参数和提供者信息

发现项 (`discovery-items/`)

包含JSON文件，用于启动发现、摄取和发布工作流程。
文件格式包括：
- 收集ID、发现类型（S3/CMR）
- 对于S3发现：前缀、桶、文件名正则表达式、时间范围
- 对于CMR发现：版本、时间范围、边界框、包含模式
- 其他设置：COG化、上传、干运行

数据集配置 (`dataset-config/`)

包含JSON文件，结合收集元数据和发现项，用于STAC摄取端点。
文件格式包括：
- 收集ID、标题、描述、类型
- 空间和时间范围
- 许可证、周期性、时间密度
- STAC版本、发现项配置

数据集验证

提供脚本用于验证所有收集。
使用pytest进行验证。

开发环境

使用pre-commit钩子保持代码格式一致。
开发前需安装依赖并设置pre-commit钩子。

搜集汇总

数据集介绍

构建方式

VEDA数据集的构建过程严格遵循了一套系统化的流程，旨在确保数据的高效整合与标准化处理。首先，数据提交者需将文件上传至暂存存储桶，随后生成STAC元数据并将其添加至暂存目录。这一过程不仅涉及数据文件的上传，还包括元数据的创建与验证，确保数据集的完整性与一致性。最终，通过提交配置文件至生产目录，数据集得以正式纳入VEDA目录，为后续的数据分析与应用奠定基础。

特点

VEDA数据集的显著特点在于其高度结构化的数据组织方式与严格的元数据管理。数据集采用STAC（SpatioTemporal Asset Catalog）标准，确保了时空数据的统一描述与高效检索。此外，VEDA数据集支持多种数据格式与扩展，如云优化地理TIFF（COG），使其在地理信息系统与遥感应用中具有广泛的适用性。通过集成自动化工作流与验证机制，VEDA数据集在数据质量与可访问性方面表现卓越。

使用方法

使用VEDA数据集时，用户首先需通过VEDA目录访问所需数据，并可根据需求下载或直接在VEDA Dashboard中进行可视化分析。数据集的STAC元数据提供了详细的空间与时间范围、数据格式及许可信息，便于用户快速定位与筛选数据。此外，VEDA数据集支持通过JupyterHub进行交互式数据处理，用户可利用提供的示例代码与笔记本进行数据探索与分析。对于高级用户，VEDA还提供了自定义数据集提交与配置的选项，以满足特定研究与应用需求。

背景与挑战

背景概述

VEDA数据集由NASA-IMPACT团队开发，旨在为地球观测数据提供一个集成的存储与展示平台。该数据集的创建旨在通过标准化数据配置和元数据管理，简化数据在VEDA目录中的加载与展示流程。VEDA数据集的核心研究问题是如何高效地将多样化的地球观测数据整合到一个统一的系统中，并通过VEDA仪表盘进行可视化展示。该数据集的开发不仅提升了数据管理的效率，还为地球科学研究提供了更为便捷的数据访问途径，推动了相关领域的研究进展。

当前挑战

VEDA数据集在构建过程中面临多项挑战。首先，数据集的多样性和复杂性要求开发团队设计一套灵活且标准化的数据配置流程，以确保不同类型的数据能够顺利集成。其次，数据的安全性和隐私保护也是一大挑战，尤其是在数据上传和处理过程中，需确保数据的完整性和安全性。此外，VEDA数据集的推广和应用还面临用户接受度和技术普及的挑战，如何简化数据提交流程并提高用户参与度是当前亟需解决的问题。

常用场景

经典使用场景

VEDA数据集的经典使用场景主要集中在地球观测数据的存储、管理和可视化展示。通过VEDA数据集，研究人员和开发者能够将各类地球观测数据上传至VEDA目录，并通过VEDA Dashboard进行数据的可视化展示和分析。这一过程不仅简化了数据的存储和检索，还为全球范围内的地球科学研究提供了强大的数据支持。

衍生相关工作

VEDA数据集的推出催生了一系列相关研究和工作，包括基于STAC（SpatioTemporal Asset Catalog）标准的地球观测数据管理工具开发、数据可视化技术的优化以及大规模数据处理流程的自动化。这些工作不仅提升了数据处理的效率，还为地球科学研究提供了更为丰富的数据资源和分析手段。

数据集最近研究