ChatENV

Name: ChatENV
Creator: Mohamed bin Zayed University of Artificial Intelligence,Abu Dhabi,UAE
Published: 2025-08-14 21:33:44
License: 暂无描述

arXiv2025-08-14 更新2025-11-28 收录

下载链接：

https://github.com/HosamGen/ChatENV/

下载链接

链接失效反馈

官方服务：

资源简介：

ChatENV 是一个包含超过 177k 卫星图像的大型多模态数据集，这些图像被分为 152k 时间间隔图像对，覆盖 62 个对象类别和 197 个国家。每个图像对都伴随着丰富的变化说明，这些说明由双模型流程（GPT-4o 和 Gemini 2.0）生成，增加了语言多样性和上下文丰富性，并提高了泛化能力。该数据集为环境变化检测任务提供了一个强大的基准。

ChatENV is a large-scale multimodal dataset containing over 177k satellite images, which are divided into 152k temporal image pairs covering 62 object categories and 197 countries. Each image pair is accompanied by rich change descriptions generated by a dual-model pipeline (GPT-4o and Gemini 2.0), which enhances linguistic diversity and contextual richness while improving generalization capability. This dataset provides a robust benchmark for the environmental change detection task.

提供机构：

Mohamed bin Zayed University of Artificial Intelligence,Abu Dhabi,UAE

创建时间：

2025-08-14

搜集汇总

数据集介绍

构建方式

ChatENV数据集基于fMoW RGB数据集构建，从中提取了超过177,000张卫星图像，涵盖197个国家的62种土地利用类别。通过按地理位置分组并按时间排序，将时间间隔至少12个月的图像配对，最终形成152,000对时序图像对。每张图像均通过VisualCrossing API获取温度、湿度、风速等气象数据，并通过Open-Meteo与OpenAQ API获取PM10、CO、NO₂等排放数据。注释生成采用GPT-4o与Gemini 2.0双模型流水线，以提升语言多样性与语义丰富度；所有测试集注释均经过人工审核，确保准确性。

特点

ChatENV数据集的显著特点在于其多模态与交互性。它首次将遥感图像与真实环境传感器数据深度融合，使模型能够超越视觉表象，理解环境变化的内在成因。数据集覆盖全球197个国家、62类地物，具有空前的地理与语义多样性。此外，其注释由两种大型语言模型联合生成，有效缓解了单一模型带来的风格偏差。数据集支持单图像描述、时序变化解释以及假设性“what-if”推理任务，为环境监测与情景模拟提供了强大的基准平台。

使用方法

ChatENV数据集通过微调Qwen-2.5-VL-7B-Instruct模型进行使用，仅对解码器中的LoRA适配器进行参数更新，保持视觉编码器与文本编码器冻结。训练样本由RGB遥感图像与嵌入传感器数据的用户提示词组成。模型支持三种任务场景：单轮图像描述、两轮“what-if”假设推理以及三轮时序差异分析。在推理时，用户可输入图像及环境传感器数据，模型能生成描述性文本、比较变化并回答反事实问题，从而服务于城市规划和环境监测等实际应用。

背景与挑战

背景概述

气候变化、城市扩张与生态系统退化等环境问题日益严峻，使得基于遥感影像的环境动态监测成为学术界与产业界的核心关切。传统视觉-语言模型在处理地理空间任务时，往往仅依赖图像本身，忽略了温度、湿度、风速及大气污染物等关键传感器数据，难以揭示环境变化的深层因果机制。为弥补这一空白，来自穆罕默德·本·扎耶德人工智能大学的研究人员Hosam Elgendy、Ahmed Sharshar、Ahmed Aboeitta及Mohsen Guizani于2025年提出了ChatENV数据集。该数据集基于fMoW构建，包含超过17.7万张卫星图像，覆盖197个国家62种地物类别，并融合了温度、PM10、CO等多模态传感器信息。通过双模型（GPT-4o与Gemini 2.0）生成注释，ChatENV为交互式、传感器引导的环境变化检测与情景推理提供了前所未有的数据基础，显著推动了遥感视觉-语言模型向因果化、互动化方向演进。

当前挑战

ChatENV数据集旨在攻克三大核心挑战。其一，现有遥感视觉-语言模型普遍缺乏对环境传感器信息的融合，仅通过图像推断变化原因，导致对地理变迁的理解流于表面；ChatENV通过将每对时序影像与实时气象和排放数据对齐，实现了从视觉表观到环境因果的跨越。其二，数据集构建过程中面临高精度传感器数据获取与时空对齐的困难，研究团队利用fMoW的时空元数据，分别调用VisualCrossing、Open-Meteo及OpenAQ等多源API，经过严格交叉验证，确保传感器读数与卫星成像时刻的高度一致。其三，传统单模型注释存在风格偏差和语义多样性不足的问题，ChatENV采用GPT-4o与Gemini 2.0双模型流水线生成描述，再经人工评测筛选，显著提升了注释的丰富性、准确性与通用性，为后续交互式“假设”推理奠定了坚实基础。

常用场景

经典使用场景

在环境监测与遥感领域，ChatENV数据集被广泛用于训练视觉-语言模型以联合理解卫星影像与传感器数据。其经典使用场景包括对单张遥感图像进行细粒度描述，识别并解释同一地点不同时间点图像对之间的环境变化，以及回答基于假设的“如果……会怎样？”式推理问题。研究者利用该数据集中的15.2万对时序图像、62类地物标签以及丰富的环境传感器元数据（如温度、湿度、PM10、CO等），使模型能够超越纯视觉信息，融合气象与排放数据，生成更具上下文感知的解释。这一设置使得ChatENV成为首个支持传感器引导、交互式环境推理的大规模基准数据集。

衍生相关工作

ChatENV数据集的诞生催生了多项具有影响力的衍生工作。在其框架启发下，研究者们开始探索将更多模态数据（如SAR、多光谱影像）与传感器信息融合，以构建更强的环境推理模型。同时，基于ChatENV提出的双模型标注策略被后续工作借鉴，用于提升遥感数据集的语言多样性与语义鲁棒性。此外，其“反事实”推理范式催生了Tree-GPT等交互式地理空间分析工具，以及TEOChat等面向时序地球观测的对话式视觉语言助手。更广泛地，ChatENV推动了将高效微调技术（如LoRA）应用于遥感视觉-语言模型的研究方向，成为该领域向轻量级、交互式、可部署系统演进的重要里程碑。

数据集最近研究