five

EcoWikiRS

收藏
arXiv2025-04-28 更新2025-04-30 收录
下载链接:
https://github.com/eceo-epfl/EcoWikiRS
下载链接
链接失效反馈
官方服务:
资源简介:
EcoWikiRS数据集包含高分辨率的航拍图像、对应地理位置的物种观测数据以及每个物种栖息地的文本描述。该数据集通过将物种观测数据与Wikipedia上的栖息地描述进行对齐,为RS-VLMs提供了可扩展的监督方式。数据集包含了91,801张航拍图像,与2745种不同物种相关联,并分为训练集(60%)、验证集(10%)和测试集(30%)。该数据集旨在通过弱监督学习,帮助模型理解RS图像,并更好地理解生态系统的特性。

The EcoWikiRS dataset contains high-resolution aerial images, species observation data corresponding to their geographic locations, and textual descriptions of each species' habitat. By aligning species observation data with habitat descriptions from Wikipedia, this dataset offers a scalable supervision approach for RS-VLMs. The dataset consists of 91,801 aerial images associated with 2,745 distinct species, and is split into training (60%), validation (10%), and test (30%) sets. This dataset is designed to assist models in understanding RS images and better comprehending the characteristics of ecosystems via weakly-supervised learning.
提供机构:
瑞士洛桑联邦理工学院
创建时间:
2025-04-28
原始信息汇总

EcoWikiRS数据集概述

数据集基本信息

  • 名称:EcoWikiRS
  • 类型:生态遥感图像与物种观测数据集
  • 组成
    • 高分辨率航拍图像(50cm,RGB波段)
    • 从GBIF收集的物种观测列表(位于航拍图像覆盖范围内)
    • 从对应Wikipedia文章中提取的物种栖息地描述句子

数据集内容

  • EUNIS生态系统类型图
    • 覆盖瑞士地区
    • 空间分辨率:100m
    • 包含25种栖息地类型
  • 数据分布
    • 训练集:60%
    • 测试集:30%
    • 验证集:10%
    • 采用20km大小的块分割方法

数据来源

  • 航拍图像:swissIMAGE产品(10cm分辨率,可从swisstopo网站下载)
  • 物种观测:GBIF(全球生物多样性信息设施)
  • 栖息地描述:Wikipedia文章

相关资源

应用与方法

  • 主要方法:WINCEL(加权InfoNCE损失)
  • 应用任务:生态系统零样本分类
  • 评估基准:欧洲自然信息系统(EUNIS)的栖息地定义

获取方式

相关研究

  • 发表于EARTHVISION 2025 Workshop(与CVPR 2025联合举办)
搜集汇总
数据集介绍
main_image_url
构建方式
EcoWikiRS数据集通过整合高分辨率航空影像、物种观测数据和维基百科的栖息地描述构建而成。首先,从瑞士的swissIMAGE产品中获取50厘米分辨率的航空影像,并根据欧洲自然信息系统(EUNIS)的网格将其分割为100米×100米的图块。随后,通过全球生物多样性信息设施(GBIF)收集瑞士境内的物种观测数据,并经过严格筛选,确保数据质量。最后,从英文维基百科中提取与观测物种相关的栖息地描述文本,经过解析和过滤后,形成图像-物种-文本的三元组数据集。
特点
EcoWikiRS数据集的核心特点在于其多模态性和生态学意义的深度整合。数据集包含91,801张航空影像,覆盖2,745种不同物种,每张影像均与物种观测数据及维基百科的栖息地描述文本相关联。文本内容不仅涵盖物种的分布和栖息地特征,还包含土壤性质、气候条件等生态学细节,为遥感图像提供了丰富的语义背景。此外,数据集采用空间分块划分策略,避免了空间自相关性,确保了模型评估的可靠性。
使用方法
EcoWikiRS数据集主要用于训练和评估遥感视觉语言模型(RS-VLM),特别是在零样本生态系统分类任务中。用户可通过对比学习框架(如提出的WINCEL损失函数)对齐图像和文本特征,从而学习生态学相关的视觉表示。具体使用时,首先加载图像和对应的文本描述,通过预训练的视觉和文本编码器提取特征;随后利用对比损失优化特征空间的对齐。此外,数据集还支持生态系统类型的零样本预测,用户可直接用EUNIS类别标签作为文本提示,计算图像与文本的相似度以进行分类。
背景与挑战
背景概述
EcoWikiRS数据集由瑞士洛桑联邦理工学院(EPFL)等机构的研究团队于2025年提出,旨在通过结合高分辨率航拍图像、物种观测数据和维基百科生境描述,构建一个面向生态学研究的遥感视觉语言模型(RS-VLM)训练资源。该数据集创新性地利用全球生物多样性信息设施(GBIF)的众包物种观测数据作为弱监督信号,通过物种栖息地的文本描述与遥感图像的对齐,实现了对土地覆盖、气候条件等生态属性的跨模态表征学习。作为首个将公民科学数据与遥感视觉语言预训练相结合的基准,EcoWikiRS推动了生态遥感从传统土地分类向语义化环境理解的范式转变,为生物多样性监测、生态系统评估等应用提供了新的方法论支撑。
当前挑战
EcoWikiRS面临的核心挑战体现在两个维度:在领域问题层面,物种观测数据存在地理定位偏差和分类噪声,且通用物种(如家麻雀)的广泛分布导致图像-文本对的语义关联弱化;在构建过程层面,维基百科文本描述的生态相关性需通过多级过滤(如栖息地章节提取、关键词匹配)才能确保质量,而航拍图像与物种观测的时空对齐需处理GBIF数据中高达100米的地理位置不确定性。此外,模型训练需解决对比学习中假阳性样本(无关文本)与假阴性样本(未配对的适用文本)共存的难题,这促使研究者开发了加权InfoNCE损失函数(WINCEL)来实现噪声鲁棒学习。
常用场景
经典使用场景
EcoWikiRS数据集在生态遥感领域具有广泛的应用价值,其经典使用场景包括通过高分辨率航空影像与物种观测数据的结合,实现对生态系统类型的零样本分类。该数据集通过整合来自GBIF的物种观测数据和维基百科的物种栖息地描述,为遥感视觉语言模型(RS-VLMs)提供了丰富的弱监督学习信号。研究人员可以利用该数据集训练模型,使其能够从遥感图像中识别出与特定生态系统相关的生态特征,如土地覆盖、气候条件和土壤性质等。
衍生相关工作
EcoWikiRS数据集衍生了一系列相关研究工作,特别是在生态遥感与跨模态学习领域。例如,WildSAT研究利用类似的方法将卫星图像与物种描述对齐,提升了土地覆盖分类任务的性能。TaxaBind工作则进一步扩展了多模态生态数据的整合,包括遥感图像、分类学名称和地面图像等。此外,ZEST数据集通过结合鸟类图片和维基百科描述,展示了零样本识别物种的潜力,这些工作共同推动了生态遥感与自然语言处理的交叉研究。
数据集最近研究
最新研究方向
EcoWikiRS数据集在生态遥感领域的最新研究方向聚焦于利用弱监督学习框架,通过物种观测数据和维基百科文本描述,实现卫星图像的生态表征学习。该数据集通过整合高分辨率航空影像、地理定位的物种观测记录以及维基百科中物种栖息地的文本描述,为遥感视觉语言模型(RS-VLMs)提供了可扩展的监督信号。当前研究热点包括开发新型损失函数(如WINCEL)以应对文本-图像对中的噪声和弱对齐问题,以及探索零样本分类在生态系统映射中的应用。这一研究方向不仅推动了遥感图像与生态知识的深度融合,还为生物多样性监测和生态系统保护提供了新的技术手段,具有重要的科学意义和应用价值。
相关研究论文
  • 1
    EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observations and Wikipedia瑞士洛桑联邦理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作