全球植树造林项目数据集

Name: 全球植树造林项目数据集
Creator: 德国萨尔兰大学计算机科学系
Published: 2025-08-15 17:28:31
License: 暂无描述

arXiv2025-08-15 更新2025-11-27 收录

下载链接：

https://dataverse.harvard.edu/dataset.xhtml;jsessionid=4b82ff1afc90d2a372a19918c211?persistentId=doi%3A10.7910%2FDVN%2FKFIKZG&version=DRAFT

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了一个全球范围的植树造林项目数据集，该数据集由来自50多个来源的信息汇编而成，涵盖了45,628个项目中的1,289,068个植树点，时间跨度为33年。该数据集不仅包含核心位置和项目元数据，还补充了每个植树点的周期性Sentinel-2卫星图像以及其他二级数据集，如基础设施存在情况、土地覆盖变化和当地气候条件。此外，还使用大型语言模型直接从项目描述和相关项目文档中提取背景细节。最终，从这些变量中导出完整性指标，以标记可能存在问题的报告站点。

This study presents a global afforestation project dataset compiled from information sourced from over 50 origins, covering 1,289,068 planting sites across 45,628 projects with a temporal span of 33 years. In addition to core location data and project metadata, the dataset also includes periodic Sentinel-2 satellite images for each planting site, alongside other secondary datasets such as infrastructure presence, land cover changes and local climatic conditions. Furthermore, large language models (LLMs) were utilized to directly extract background details from project descriptions and relevant project documents. Finally, integrity metrics were derived from these variables to flag potentially problematic reported sites.

提供机构：

德国萨尔兰大学计算机科学系

创建时间：

2025-08-15

搜集汇总

数据集介绍

构建方式

在全球应对气候变化的背景下，植树造林作为增强碳汇的关键策略备受关注，然而自愿碳市场中项目数据的可靠性常遭质疑。为填补这一空白，该数据集系统整合了来自50余个公开来源的信息，涵盖45,628个项目中的1,289,068个种植地点，时间跨度达33年。数据收集通过关键词搜索识别相关网站，并借助API抓取或网页爬取技术获取项目元数据与地理边界信息。对于仅提供点位置的数据，采用100米缓冲区生成派生几何；同时，利用大型语言模型从项目描述文档中提取树种和种植日期等细节，并融合Sentinel-2卫星影像、基础设施分布、土地覆盖变化及气候特征等多源辅助数据，最终以统一的GeoParquet文件格式存储于哈佛Dataverse平台。

使用方法

该数据集适用于多种分析场景，用户可借助QGIS、ArcGIS或Google Earth Engine等GIS软件进行空间查询与可视化，也可通过Python或R中的地理空间库（如GeoPandas）进行编程处理。使用时需注意数据的层次结构——从网站、项目到单个种植地点——以及种植日期定义可能因来源而异。数据集特别适合用于评估自愿碳市场中造林项目的空间数据质量，也可作为弱监督学习任务的训练素材，例如基于卫星影像的植被变化检测。用户可根据LDIS分数筛选高质量子集，并结合植被指数变化趋势分析造林成效的持久性。

背景与挑战

背景概述

森林作为地球重要的碳汇，其保护与恢复已成为应对气候变化的核心策略之一。然而，全球植树造林项目的成效长期依赖于开发者自我报告或有限外部验证的认证流程，这引发了关于数据可靠性与项目完整性的深刻质疑。在此背景下，由萨尔布吕肯信息学园区与马里兰大学联合团队于2025年发布的全球植树造林项目数据集，系统整合了来自50余个数据源、涵盖45,628个项目及1,289,068个种植地点的信息，时间跨度达33年。该数据集不仅提供了标准化的地理边界完整性评估指标——位置数据完整性评分（LDIS），还融合了时间序列卫星影像与多源辅助数据，为自愿碳市场的透明度提升与遥感监测研究奠定了重要基础。

当前挑战

该数据集面临的核心挑战体现在两个层面。在领域问题层面，植树造林成效的评估具有多维性，涵盖生态、社会与经济因素，但现有指标难以标准化且多依赖缺乏独立验证的自我报告数据；遥感监测虽可追踪树冠变化，却难以捕捉物种组成、生态系统韧性等细微成功指标。在构建过程中，数据整合面临严峻考验：约79%的种植地点在LDIS的10项指标中至少有一项未通过，15%的项目甚至缺乏机器可读的地理参考数据；数据来源的异构性导致命名与单位需统一，嵌套与重复结构需通过复杂算法识别，而政府主导项目的公开信息稀缺进一步加剧了覆盖局限。

常用场景

经典使用场景

全球植树造林项目数据集为评估造林与再造林活动的空间数据质量提供了标准化基准。该数据集整合了来自50余个数据源的128万余个种植点位，覆盖45,628个项目，时间跨度达33年。其核心应用在于利用位置数据完整性评分（LDIS）对项目上报的边界进行系统性校验，结合Sentinel-2卫星影像、道路与建成区分布、土地覆盖变迁等辅助信息，实现对全球造林项目空间信息真实性的客观评估。研究者可基于LDIS指标筛选高质量点位，为后续遥感监测、碳汇核算及项目有效性分析奠定可靠的数据基础。

解决学术问题

该数据集直面自愿碳市场中长期存在的空间数据可信度危机。研究表明约79%的造林点位在LDIS十项指标中至少一项不达标，15%的项目甚至缺乏机器可读的地理参考信息。这一发现系统性地揭示了自我报告式数据在边界精度、多边形拓扑有效性、行政边界混淆及嵌套重叠等方面存在的普遍缺陷。通过引入标准化完整性评估框架，数据集为纠正碳信用额外性夸大、提升减排效果验证的透明度提供了方法论支撑，推动学术界从依赖项目方声明转向基于多源遥感证据的独立验证范式。

实际应用

在实际应用中，该数据集成为碳市场监管与合规审计的关键工具。碳信用买家与第三方核查机构可借助LDIS评分快速识别高风险项目，避免因位置信息失真导致的碳汇量误估。数据集还支持与Verra、Gold Standard等主流认证体系的交叉比对，助力《巴黎协定》第六条框架下国际碳市场的透明度建设。此外，造林项目开发者可利用其分析基础设施侵占、土地利用冲突等风险，优化选址策略，提升项目长期可持续性，从而在生态修复与经济效益之间实现更精准的平衡。

数据集最近研究