High-Resolution Landscape Dataset for Concept-Based XAI

Name: High-Resolution Landscape Dataset for Concept-Based XAI
Creator: 雷恩第二大学·国家科学研究中心; 维尔茨堡大学·人工智能与数据科学中心
Published: 2026-04-15 03:16:38
License: 暂无描述

arXiv2026-04-15 更新2026-04-18 收录

下载链接：

https://zenodo.org/records/18936778

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由雷恩第二大学联合团队创建，包含15类生态景观概念（如树篱、湿地等）的653个标注样本及1,450个随机参考样本，数据源自法国五个研究区域的高分辨率多光谱（5波段）和LiDAR无人机影像（空间分辨率8cm/像素）。通过QGIS人工标注结合农业土地登记数据构建，特别针对水生昆虫分布建模需求设计，支持概念驱动的可解释AI在物种分布模型中的应用，能有效验证生态假设并辅助保护政策制定。

This dataset was created by a collaborative team from the University of Rennes 2. It comprises 653 annotated samples and 1,450 randomly selected reference samples covering 15 categories of ecological landscape concepts (e.g., hedgerows, wetlands, etc.). The data is derived from high-resolution multispectral (5-band) and drone-borne LiDAR imagery with a spatial resolution of 8 cm per pixel, acquired across five research regions in France. Constructed via manual annotation using QGIS in conjunction with agricultural land registry data, the dataset is specifically tailored for aquatic insect distribution modeling. It supports the application of concept-driven explainable AI in species distribution models, effectively validating ecological hypotheses and aiding in the development of conservation policies.

提供机构：

雷恩第二大学·国家科学研究中心; 维尔茨堡大学·人工智能与数据科学中心

创建时间：

2026-04-15

原始信息汇总

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

基本信息

发布日期：2026年3月10日
当前版本：v2
访问状态：Open
DOI：10.5281/zenodo.18936778
资源类型：Dataset
发布者：Zenodo
许可协议：Creative Commons Attribution 4.0 International

数据集描述

本数据集是一个多模态、高分辨率的数据集，包含从多光谱和LiDAR无人机数据中提取的2,103个图像块（其中653个为概念特定，1,450个为随机背景）。该数据集旨在支持面向精细尺度物种分布建模的概念型可解释人工智能（XAI，例如TCAV）研究。

数据集结构

数据集按概念类别组织。每个目录代表一个特定的景观元素（概念），并遵循标准化的3模态结构：

image_patches：5波段多光谱数据（B, G, R, RE, NIR）
dsm_patches：数字表面模型（冠层高程）
dtm_patches：数字地形模型（地面高程）

概念类别

植被：Hedge（树篱），IsoTree（孤立树木），Wood（林地）
农业：Cereal，Maize，Wheat，PermG（永久性草地），TempG（临时性草地）
耕作系统：Organic（有机作物），Convent（常规作物）
水域与湿地：LinW（线性水域），SurfW（地表水域），Wet（湿地）
基础设施：Build（建筑物），Road（道路）
基线：random_images（1,450个随机采样的背景图像块）

研究区域与数据采集

采集时间：2024年4月
采集设备：使用配备MicaSense Dual MX和Qube240传感器的Trinity F90+无人机采集。
研究区域：数据采集自法国五个异质性研究地点，范围涵盖从粗放式奶牛养殖系统到高度集约化种植系统的多样化农业景观。

数据规格

空间分辨率：8厘米/像素
图像块尺寸：512 × 512像素
输入通道：总计7个波段（5个多光谱波段 + 2个LiDAR衍生的高程模型）

文件信息

文件名称：concepts_ecml2026_v2.zip
文件大小：12.6 GB
MD5校验和：e969a781b8a21aff09254d98d1cb4998
下载链接：https://zenodo.org/records/18936778/files/concepts_ecml2026_v2.zip

使用统计（截至页面记录）

总浏览量：88
总下载量：8
总数据量：160.7 GB

关键词

Explainable AI
Concept-based Explainable AI
Aquatic insects
Drone
Remote sensing
Landscape Ecology

引用格式

Anonymous. (2026). A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models [Data set]. Zenodo. https://doi.org/10.5281/zenodo.18936778

搜集汇总

数据集介绍

构建方式

在景观生态学与遥感技术深度融合的背景下，该数据集的构建依托高分辨率无人机多光谱与激光雷达影像。研究团队在法国五个研究地点，利用配备五波段多光谱传感器与LiDAR的无人机采集数据，空间分辨率达8厘米/像素。通过结合地理信息系统手动标注、官方农业地籍数据以及影像解译，识别并提取了15类景观概念，如树篱、林地、水体及农田等，共生成653个概念图块。同时，从相同影像中随机采样了1450个参考图块，以确保概念的多样性与对比性。所有图块均以512×512像素大小提取，并融合了多光谱波段与数字高程模型，形成七通道数据，以支持精细尺度的生态建模。

特点

该数据集的核心特点在于其专为概念驱动的可解释人工智能设计，涵盖了生态学中关键景观概念的高分辨率表达。数据集中包含的15类概念均经过生态学专家审定，能够反映多种生态过程，如生物多样性维持、水文调节及人类活动影响。每个概念图块均源自多光谱与LiDAR数据的融合，提供了丰富的光谱与三维结构信息。此外，数据集通过严格的内部一致性检验，确保了概念在模型潜在空间中的可分离性与鲁棒性。其开放获取性质与精细的空间尺度，使其特别适用于物种分布模型等生态学应用，为理解复杂景观驱动因子提供了独特的数据基础。

使用方法

该数据集主要用于支持基于概念的XAI方法在物种分布模型中的应用，特别是通过Robust TCAV框架量化景观概念对模型预测的影响。研究人员首先利用数据集的图块训练深度学习模型，如卷积神经网络或视觉变换器，以预测目标物种的存在与否。随后，从数据集中选取特定概念图块与随机图块，在模型潜在空间中计算概念激活向量，进而评估各概念对分类结果的贡献度。这种方法不仅能够验证模型与生态学知识的一致性，还能揭示新的物种-环境关联，生成可检验的生态学假设。数据集还可用于比较不同架构模型的解释性差异，为景观尺度的保护决策提供科学依据。

背景与挑战

背景概述

高分辨率景观数据集（High-Resolution Landscape Dataset for Concept-Based XAI）由法国雷恩大学、德国维尔茨堡大学等机构的研究团队于2024年创建，旨在推动基于概念的可解释人工智能在物种分布模型中的应用。该数据集整合了多光谱与激光雷达无人机影像，涵盖15类景观概念与随机参考斑块，为精细尺度生态建模提供了关键数据支撑。其核心研究问题在于弥合深度学习模型预测性能与生态可解释性之间的鸿沟，通过概念激活向量量化景观特征对物种分布的影响，从而增强模型在保护政策与入侵物种管理中的决策支持能力。

当前挑战

该数据集致力于解决物种分布模型领域可解释性不足的挑战，即如何从复杂深度学习模型中提取生态学见解以验证专家知识并生成新假设。构建过程中面临多重困难：景观概念如线性水体与湿地常被植被覆盖或尺度微小，难以通过影像解译直接识别；需依赖水文网络手动测绘与农业地籍数据辅助分类，增加了数据标注的复杂性与人力成本。同时，确保多模态数据（多光谱与激光雷达）的空间配准精度与概念斑块内部一致性亦构成技术挑战。

常用场景

经典使用场景

在景观生态学与物种分布建模领域，该高分辨率景观数据集为概念驱动的可解释人工智能提供了关键支撑。其最经典的使用场景在于结合Robust TCAV方法，量化各类景观概念对深度学习模型预测的影响。例如，在预测水生昆虫分布时，研究者能够通过该数据集评估林地、湿地、农田等概念对模型判断物种存在与否的贡献度，从而将黑盒模型转化为可解释的生态分析工具。

衍生相关工作

该数据集的发布催生了一系列围绕概念可解释性在生态建模中的拓展研究。例如，后续工作探索了概念激活区域等进阶解释方法，以更精细地刻画概念在模型中的表征边界。同时，该数据集也为跨领域研究提供了范例，激励遥感、人工智能与保护生物学学者合作，开发针对不同生物类群与生态系统的概念库，推动可解释AI在环境科学中的标准化与普及。

数据集最近研究