ChatEarthNet

Name: ChatEarthNet
Creator: 慕尼黑工业大学地球观测数据科学
Published: 2024-02-27 04:29:22
License: 暂无描述

arXiv2024-02-27 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.11325v2

下载链接

链接失效反馈

官方服务：

资源简介：

ChatEarthNet是由慕尼黑工业大学地球观测数据科学团队创建的全球尺度图像文本数据集，旨在通过自然语言描述Sentinel-2卫星数据，提升非专业用户对复杂卫星图像的理解。该数据集利用Sentinel-2的全球覆盖特性作为基础图像源，结合欧洲空间局的WorldCover项目提供的语义分割标签，通过深度语义分析生成详细提示，利用ChatGPT生成丰富描述。数据集包含163,488对由ChatGPT-3.5生成的图像文本对和额外10,000对由ChatGPT-4V生成的图像文本对。该数据集具有全球覆盖、高质量、广泛多样性和详细描述的特点，适用于训练视觉语言地理基础模型和评估大型视觉语言模型在遥感领域的应用。

ChatEarthNet is a global-scale image-text dataset developed by the Geo-Observation Data Science Team at the Technical University of Munich. It aims to improve non-experts' comprehension of complex satellite imagery by providing natural language descriptions of Sentinel-2 satellite data. The dataset takes Sentinel-2’s global coverage capability as its foundational image source, integrates semantic segmentation labels from the European Space Agency’s (ESA) WorldCover project, generates detailed prompts via deep semantic analysis, and produces rich descriptive content using ChatGPT. It includes 163,488 image-text pairs generated by ChatGPT-3.5, plus an additional 10,000 image-text pairs generated by ChatGPT-4V. Boasting global coverage, high quality, broad diversity and detailed descriptions, this dataset is applicable for training vision-language geospatial foundation models and evaluating the applications of large vision-language models in the remote sensing field.

提供机构：

慕尼黑工业大学地球观测数据科学

创建时间：

2024-02-18

搜集汇总

数据集介绍

构建方式

ChatEarthNet数据集的构建依托于全球覆盖的Sentinel-2卫星影像与欧洲空间局WorldCover项目提供的精细土地覆盖产品。其核心方法是通过算法分析每幅影像对应的土地覆盖图，提取不同地物类型的空间分布与比例信息，并以此为基础精心设计结构化提示词。这些富含语义的提示词被输入至ChatGPT-3.5与ChatGPT-4V两种大型语言模型，以自动化方式生成对卫星影像的详细自然语言描述。为确保数据质量，研究团队对生成结果进行了人工验证与修正，最终形成了包含超过17万对图像-文本的高质量数据集。

特点

该数据集最显著的特征在于其全球尺度的覆盖范围与高质量的详细描述。影像样本遍布除南极洲外的所有大陆，囊括了多样化的城市与自然景观，确保了地理与地物类型的广泛代表性。其文本描述并非简单标注，而是通过大型语言模型生成的、包含丰富语义的长段落，细致刻画了影像中各类土地覆盖的空间分布、相对比例与形态特征。数据集同时提供了由ChatGPT-3.5生成的16万余条描述和由多模态模型ChatGPT-4V生成的1万条描述，后者在理解视觉信息的基础上能产生更具整体性和生动性的文本，形成了互补与对比。

使用方法

ChatEarthNet数据集主要服务于遥感领域视觉-语言基础模型的训练与评估。研究人员可将该数据集中的Sentinel-2影像与对应文本描述作为配对数据，用于预训练能够理解遥感影像并关联自然语言的跨模态模型。经过此类大规模数据预训练的模型，可进一步通过微调适配于图像描述生成、视觉问答、视觉定位及指代表达分割等多种下游任务。此外，数据集提供的两种不同模型生成的描述版本，也为比较不同语言模型在遥感场景下的文本生成能力提供了基准。数据集的划分已包含训练集、验证集与测试集，便于直接用于模型开发与性能评测。

背景与挑战

背景概述

随着遥感技术的飞速发展，卫星影像数据呈指数级增长，然而这些图像固有的复杂性使得非专业用户难以理解。自然语言作为人类知识的载体，能够成为普通用户与复杂卫星影像之间的桥梁。在此背景下，慕尼黑工业大学数据科学与地球观测团队于2024年2月发布了ChatEarthNet数据集，旨在通过为Sentinel-2数据提供自然语言描述，促进普通用户对卫星影像的理解。该数据集利用欧洲航天局WorldCover项目的语义分割标签丰富土地覆盖描述，通过深度语义分析设计详细提示，借助ChatGPT生成丰富描述，并引入人工验证流程以提升质量。ChatEarthNet包含163,488个由ChatGPT-3.5生成的图像-文本对以及10,000个由ChatGPT-4V生成的图像-文本对，具有全球覆盖、高质量、广泛多样性和详细描述的特点，为训练视觉-语言地理基础模型和评估遥感领域的大规模视觉-语言模型提供了重要资源。

当前挑战

ChatEarthNet数据集致力于解决遥感领域图像理解与描述的挑战，其核心在于弥合复杂卫星影像与普通用户之间的解释鸿沟。具体挑战包括：在领域问题层面，卫星影像的语义复杂性和多尺度特征使得自动生成准确、细致的自然语言描述尤为困难，需克服土地覆盖类型多样、空间分布异构以及影像低分辨率导致的细节辨识难题；在构建过程中，大规模人工标注耗时耗力且成本高昂，因此依赖大型语言模型如ChatGPT生成描述，但需精心设计提示以引导模型遵循指令、避免幻觉问题，并确保描述客观性与空间准确性。此外，整合全球Sentinel-2数据与WorldCover土地覆盖图时，需处理数据一致性、时空覆盖多样性以及多模态信息对齐等挑战，以保障数据集的全球代表性与语义丰富性。

常用场景

经典使用场景

在遥感与地理信息科学领域，对全球尺度卫星影像进行语义理解是核心挑战之一。ChatEarthNet数据集通过提供大规模、高质量的Sentinel-2影像与自然语言描述对，为训练视觉-语言地理基础模型提供了经典范例。其最经典的使用场景在于支撑遥感领域的视觉-语言预训练，研究者可利用其全球覆盖的16万余对图像-文本数据，让模型学习卫星影像中复杂地物（如水体、植被、建成区）的空间分布、形态特征与自然语言描述之间的深层关联，从而实现从像素到语义的跨模态对齐。

解决学术问题

该数据集有效解决了遥感人工智能研究中高质量标注数据稀缺的核心瓶颈。传统遥感图像标注依赖专家人工解读，成本高昂且难以扩展，导致现有数据集在规模、描述细节和全球代表性上存在局限。ChatEarthNet创新性地结合了Sentinel-2全球影像、ESA WorldCover地物分类产品以及大语言模型的描述生成能力，辅以人工验证，系统性地提供了兼具大规模、高细节度和全球多样性的标注数据。这为训练能够深入理解遥感影像语义、并支持零样本或小样本迁移的视觉-语言模型奠定了数据基础，推动了遥感解译从特定任务驱动向通用基础模型范式的转变。

衍生相关工作

ChatEarthNet的发布，预期将催生一系列遥感多模态领域的经典衍生工作。其高质量、细粒度的标注为开发更强大的遥感视觉-语言基础模型（如Geo-CLIP的增强版本或专门针对地物描述的生成模型）提供了关键训练资源。基于此，社区可进一步探索遥感图像描述生成、视觉问答、视觉定位及指代表达分割等任务的性能边界。同时，该数据集也为评估现有通用大视觉-语言模型在遥感领域的零样本能力提供了标准基准，推动模型在专业领域的适应性研究。这些工作将共同深化人工智能对地球表层系统的认知与交互能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集