SenseBench

github2026-05-07 更新2026-05-16 收录

下载链接：

https://github.com/Zhong-Chenchen/SenseBench

下载链接

链接失效反馈

官方服务：

资源简介：

SenseBench是一个用于评估大视觉语言模型在遥感领域低层视觉感知与描述能力的基准数据集。它包含感知任务（SensePerception）和描述任务（SenseDescription），涵盖单输入和配对输入，并针对不同输入格式、失真设置和问题类型进行评估。数据集旨在促进遥感社区的全面发展，并托管在Hugging Face平台上。

SenseBench is a benchmark dataset for evaluating the low-level visual perception and description capabilities of large vision-language models in the remote sensing domain. It includes perception tasks (SensePerception) and description tasks (SenseDescription), covering single-input and paired-input scenarios, and conducts evaluations across diverse input formats, distortion settings, and question types. This dataset aims to facilitate the comprehensive development of the remote sensing community and is hosted on the Hugging Face platform.

创建时间：

2026-05-04

原始信息汇总

数据集概述：SenseBench

SenseBench 是一个用于评估大型视觉-语言模型（Large Vision-Language Models, VLMs）在遥感领域低层级视觉感知与描述能力的基准测试。

核心任务

SensePerception：感知任务，涵盖不同输入格式、失真设置以及“是否”、“什么”、“如何”三种问题类型。
SenseDescription：描述任务，针对单输入或成对输入，从完整性、正确性和忠实性三个维度评估模型生成的响应。

主要观察发现

领域差异显著：通用领域与遥感专用VLM在低层感知先验上存在差异。通用模型对常见退化更具鲁棒性，但难以泛化到遥感特有的物理伪影；遥感模型则反之。
多重失真鲁棒性是瓶颈：当前VLM在面对叠加的多种失真时表现大幅下降，即使是单失真处理表现最佳的模型（如Gemini-3.1-pro-preview、EarthDial）也难以应对复杂真实世界的退化。
参考图像的作用具有模型依赖性：通用VLM能从参考图像中获益以改进退化检测，而遥感VLM在成对图像设置下表现反而退步，暴露出多图像空间对齐的弱点。

数据下载

数据集托管于 Hugging Face 平台：

完整数据集：SenseBench
便携子集：SenseBench_subset

数据来源

数据集使用了以下数据源：

Google Earth 高分辨率卫星影像
Google Earth Engine (GEE) 地理空间数据处理平台
Sentinel 卫星数据（欧洲航天局，通过哥白尼开放获取中心）
Landsat 卫星数据（美国地质调查局）
OpenStreetMap (OSM) 社区贡献数据

使用许可

本项目采用 Creative Commons Attribution 4.0 International License (CC BY 4.0) 许可。所有图像及标注仅限学术用途，禁止任何商业使用。

搜集汇总

数据集介绍

构建方式

SenseBench数据集由中国科学院及多所高校联合构建，旨在系统评估大视觉语言模型在遥感领域低层次视觉感知与描述的性能。数据来源涵盖Google Earth、Sentinel、Landsat等卫星影像，以及OpenStreetMap地理标注，图像涵盖多种分辨率和光谱波段。构建过程包括：首先对原始遥感影像进行标准化裁剪与多类型退化模拟，包括物理驱动的遥感失真（如大气散射、云雾遮挡）和通用退化（如模糊、噪声）；然后基于是否/什么/如何三类提问范式，为每张图像生成感知问答对；同时为配对感知任务设计参考图像与目标图像的协同输入。所有描述性回答均经过人工校验，以确保完整性、正确性和忠实度，最终形成多维度、分层级的评测基准。

特点

SenseBench的核心特点体现在其多层次、跨退化的评测架构。一方面，数据集将感知任务拆解为单一退化与复合退化两大维度，并细分为16种退化类型，能够精准甄别模型在孤立与叠加干扰场景下的鲁棒性差异。另一方面，引入参照图像配对机制，通过单图与双图两种输入模式，评估模型在多源对齐与结构锚定上的感知能力。评测体系独创性地融合完整性、正确性与忠实度三项指标，从语义和事实两个层面量化描述质量。此外，数据集覆盖通用域和遥感专用两类模型，揭示了领域特化与通用泛化能力之间的权衡关系，为后续研究提供了明确的方向指引。

使用方法

用户可通过Hugging Face平台直接下载完整数据集或便携子集，具体操作参考docs/data.md文档。评测流程部署在src/目录下，分为推理与评估两阶段：首先运行预定义推理脚本，加载待测模型并输入指定格式的图像与问题对，生成输出；随后调用评估模块，依据退化类型、提问范式、输入模式等维度进行分层统计，并计算完整性、正确性与忠实度三项得分。支持批量化评测，结果以结构化JSON文件保存，便于跨模型比较与可视化分析。详细步骤及参数配置见docs/evaluation.md，社区定期更新维护，确保基准的时效性与可复现性。

背景与挑战

背景概述

SenseBench是一个面向遥感领域大视觉语言模型底层视觉感知与描述能力的评测基准，由研究人员于2026年发布。随着通用与遥感专用大视觉语言模型的蓬勃发展，现有模型在遥感图像的低层视觉任务（如退化感知、细节描述）上暴露出显著的领域差异。该基准的核心研究问题在于系统评估模型对遥感图像中多种物理驱动的失真（如云雾遮挡、传感器噪声）与通用退化（如模糊、噪声）的感知能力，并检验其在单输入与配对输入场景下的描述完备性、正确性与忠实性。SenseBench的提出填补了遥感领域缺乏细粒度、多维度底层视觉评测标准的空白，为模型在解译复杂遥感场景时的鲁棒性与可信度提供了关键参照。

当前挑战

SenseBench面临的核心挑战包括：其一，领域问题层面，通用与遥感专用模型在低层视觉感知上呈现截然不同的先验偏好，前者对通用退化鲁棒但难以泛化至遥感特有失真，后者虽擅长遥感退化却牺牲了通用退化鲁棒性，如何弥合这一领域鸿沟是亟待解决的瓶颈。其二，构建过程层面，为模拟真实遥感场景，基准需涵盖多云遮挡、混合退化等复杂失真组合，但多数模型在多重叠加失真下性能急剧下降，暴露出辨识孤立退化不等于解缠复合退化的本质困境。此外，配对参考图像作为结构锚点的效用高度依赖模型架构，部分遥感模型在配对输入下反而表现退步，暴露出多图像空间对齐能力的薄弱，这给构建公平、全面的评测体系带来了设计上的挑战。

常用场景

经典使用场景

SenseBench作为遥感领域首个聚焦于大视觉语言模型底层视觉感知与描述能力的基准数据集，其经典使用场景在于系统评估模型对遥感图像中物理退化（如大气扰动、传感器噪声、几何畸变）以及多重失真叠加场景的鲁棒性。研究者通过构建单输入与双输入（含参考图像）两种任务范式，配合“是否/是什么/如何”三类细粒度问题，能够全面剖析模型在感知完整性、正确性与忠实性三个维度的表现，为衡量VLM在遥感图像理解任务中的底层视觉能力提供了标准化测试框架。

解决学术问题

该数据集精准解决了当前遥感领域大视觉语言模型研究中普遍存在的评测瓶颈——即缺乏针对底层视觉质量感知的专项基准。现有评估多聚焦于高层语义理解（如目标检测、场景分类），而忽视了模型对图像退化、失真类型判别等底层视觉任务的真实能力。SenseBench通过引入跨域退化对比、多重失真解耦以及参考图辅助感知等评测设计，揭示了通用域VLM与遥感专用VLM在底层视觉先验上的显著差异，阐明了单一领域优化可能牺牲退化鲁棒性的关键学术问题，为模型架构设计和训练策略优化提供了理论依据。

衍生相关工作

SenseBench的发布催生了多个方向的研究工作：其一，基于该基准中多重失真解耦的子集设计，研究者提出了分层鲁棒性感知的训练策略，显著提升了VLM在复合退化场景下的泛化能力；其二，针对双输入感知任务中模型对齐困难的问题，衍生出基于显式参考图的注意力增强模块，有效改善了多图像空间对齐的性能；其三，在底层视觉描述方向，以该基准为评估标准，出现了结合物理退化先验的描述生成方法，推动了遥感图像底层语义精细化描述的发展。这些工作共同构建了从评测到方法改进的完整闭环，加速了遥感领域VLM的迭代演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集