DVL-Suite

Name: DVL-Suite
Creator: 东京大学, 理化学研究所, 早稻田大学, 武汉大学, 斯坦福大学
Published: 2025-05-27 20:01:19
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

http://arxiv.org/abs/2505.21076v1

下载链接

链接失效反馈

官方服务：

资源简介：

DVL-Suite是一个用于分析长期城市动态的综合性框架，通过远程遥感影像实现。该套件包含从2005年到2023年美国42个主要城市的15063张高分辨率（1.0m）多时相图像。DVL-Suite分为两个部分：DVL-Bench和DVL-Instruct。DVL-Bench包括七个城市理解任务，从基础变化检测（像素级）到定量分析（区域级）和综合城市叙事（场景级），涵盖了城市扩张/转变模式、灾害评估和环境挑战等多种城市动态。DVL-Instruct是一个专门的指令调整数据集，旨在增强模型在多时相地球观测方面的能力。基于此数据集，我们开发了DVLChat，这是一个能够进行图像级问答和像素级分割的基线模型，通过语言交互促进对城市动态的全面理解。

DVL-Suite is a comprehensive framework for analyzing long-term urban dynamics, implemented via remote sensing imagery. This suite encompasses 15,063 high-resolution (1.0m) multi-temporal images spanning 42 major cities across the United States from 2005 to 2023. DVL-Suite is divided into two components: DVL-Bench and DVL-Instruct. DVL-Bench comprises seven urban understanding tasks, ranging from basic change detection (pixel-level) to quantitative analysis (regional-level) and comprehensive urban storytelling (scene-level), covering diverse urban dynamics such as urban expansion/transition patterns, disaster assessment, and environmental challenges. DVL-Instruct is a specialized instruction-tuning dataset designed to enhance model capabilities in multi-temporal Earth observation. Based on this dataset, we developed DVLChat, a baseline model capable of image-level question answering and pixel-level segmentation, which facilitates comprehensive understanding of urban dynamics through language interaction.

提供机构：

东京大学, 理化学研究所, 早稻田大学, 武汉大学, 斯坦福大学

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

DVL-Suite数据集构建过程采用了多阶段标注流程，结合了专家标注与GPT-4.1的自动化生成技术。数据源来自美国国家农业影像计划(NAIP)的1米分辨率遥感影像，覆盖42个美国主要城市2005至2023年的时序数据。首先对573个多时序场景进行地理配准，处理为3907个1024×1024像素的影像块。标注团队通过半自动流程完成：专家标注基础语义变化区域后，GPT-4.1生成任务特定指令，涵盖5种土地覆盖类型和20种变化事件类别。通过三级质量控制（自检、互检和主管抽检）确保标注准确性，最终形成包含15,063张高分辨率影像的数据集。

特点

DVL-Suite的核心特征体现在多维度城市动态分析能力上。数据集包含DVL-Bench基准测试和DVL-Instruct指令微调两部分，具有三大独特优势：1) 系统性任务分类，涵盖从像素级变化检测到区域级动态描述的7类城市理解任务；2) 长时序分析能力，平均每场景包含6.85-6.94个时间帧，突破传统双时相分析的局限；3) 多模态标注体系，包含1,318条指代分割指令、5,854组问答对和1,437条详细描述，支持视觉-语言联合理解。特别值得注意的是其环境评估指标，整合了臭氧浓度、夜间光照强度等多元地球观测数据，为城市可持续发展研究提供量化依据。

使用方法

该数据集支持多层次的城市动态分析应用。研究者可通过DVL-Bench评估模型在7类任务上的表现：基础变化分析(BCA)测试土地覆盖类型识别，变化速度估计(CSE)验证量化分析能力，环境评估(EA)考察城市宜居性指标理解。对于模型开发，DVL-Instruct提供61,317条指令-答案对，适合微调多模态大语言模型。实际使用时，建议采用论文提出的DVLChat框架，其双LoRA模块设计可同时处理视觉问答和指代分割任务。输入需标注[QA]或[SE]前缀以激活对应模块，多时序图像特征通过交错编码处理，最终输出包含文本回答和像素级分割掩膜的综合结果。

背景与挑战

背景概述

DVL-Suite是由东京大学、RIKEN AIP、早稻田大学、武汉大学和斯坦福大学的研究团队于2025年提出的一个多模态大型语言模型（MLLM）基准测试框架，专注于通过遥感影像分析长期城市动态。该数据集包含15,063张高分辨率（1.0米）多时相影像，覆盖美国42个特大城市从2005年至2023年的城市变化，旨在解决现有MLLM在长期地球观测分析中的局限性。DVL-Suite由DVL-Bench和DVL-Instruct两部分组成，前者包含七项城市理解任务，从基础变化检测到定量分析和综合城市叙事，后者则是一个专门用于动态城市理解的指令调优数据集。这一数据集的推出为可持续城市发展研究提供了重要的数据支持和评估工具。

当前挑战

DVL-Suite面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，现有MLLM在长期时间序列理解和定量分析方面存在显著不足，特别是在处理超过双时相输入的长时序理解和环境变化的精确定量分析方面表现不佳。构建过程中的挑战包括：1) 多时相影像的对齐和质量控制；2) 复杂城市动态的精确标注，特别是涉及多向土地覆盖类型转换的定量描述；3) 环境评估指标与遥感影像的空间匹配；4) 长时序变化叙事的连贯性保持。这些挑战使得构建一个全面、精确且具有代表性的城市动态理解数据集变得尤为复杂。

常用场景

经典使用场景

DVL-Suite数据集在遥感影像与多模态大语言模型（MLLMs）的交叉研究中扮演着核心角色。其15,063张高分辨率时序影像覆盖42个美国城市18年的演变过程，为研究者提供了分析城市扩张、灾害评估、环境变化等动态场景的标准化测试平台。通过像素级变化检测（如植被转建筑区域分割）、区域级定量分析（如建筑扩张速率计算）和场景级语义描述（如15年城市发展叙事）的三层任务架构，该数据集成为验证模型长时序理解能力的黄金标准。

衍生相关工作

基于DVL-Suite的基准测试催生了多项创新工作：1）DVLChat模型通过双LoRA架构统一视觉问答与像素分割，在[RCD]任务上F1达0.81；2）ChangeMamba引入状态空间模型提升变化检测精度；3）Video-LLaVA等通用视频模型被重新适配用于时序遥感分析。数据集构建方法论还启发了EarthDial等后续工作采用半自动标注流程（专家标注+GPT-4.1生成），推动领域向细粒度时空理解迈进。

数据集最近研究