CHOICE

github2025-05-16 更新2025-05-21 收录

下载链接：

https://github.com/ShawnAn-WHU/CHOICE

下载链接

链接失效反馈

官方服务：

资源简介：

CHOICE是一个广泛的基准数据集，旨在客观评估大型视觉语言模型（VLMs）在遥感领域的层次化能力。该数据集专注于遥感领域的两个主要能力维度：感知和推理，进一步细分为6个二级维度和23个叶子任务，以确保全面的评估覆盖。CHOICE通过从全球50个城市收集数据、构建问题和质量控制的过程，保证了总共10,507个问题的质量。新整理的数据和带有明确答案的多选题格式允许进行客观和直接的性能评估。

CHOICE is a comprehensive benchmark dataset designed to objectively evaluate the hierarchical capabilities of large vision-language models (VLMs) in the remote sensing domain. This dataset focuses on two core capability dimensions in remote sensing: perception and reasoning, which are further subdivided into 6 secondary dimensions and 23 leaf tasks to ensure comprehensive coverage of the evaluation. CHOICE guarantees the quality of a total of 10,507 questions through processes including data collection from 50 global cities, question construction and quality control. The newly curated data and multiple-choice question format with explicit answers enable objective and straightforward performance evaluation.

创建时间：

2025-05-13

原始信息汇总

CHOICE 数据集概述

数据集基本信息

名称: CHOICE (Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models)
存储平台:
- Hugging Face
- Kaggle
大小: 6.07 GB (完整版)
子集大小: 460个样本 (GitHub上提供的CHOICE_subset)

数据集目的

系统性评估大型视觉语言模型(VLMs)在遥感领域的感知和推理能力。

关键特性

层次化能力分类:
- 2个主要能力维度: 感知和推理
- 6个二级维度
- 23个三级叶任务
数据特点:
- 10,507个问题
- 来自全球50个城市的数据
- 选择题形式，有明确答案
构建方法:
- 标签驱动构建
- 基础模型驱动构建
- 人-GPT4协作构建
- 人工质量控制

数据结构

bash perception ├── cross_instance_discerment │ ├── attribute_comparison │ │ ├── images │ │ └── attribute_comparison.json │ ├── change_detection │ │ ├── images │ │ └── change_detection.json │ ├── referring_expression_segmentation │ │ ├── images │ │ ├── masks │ │ └── referring_expression_segmentation.json │ └── spatial_relationship │ ├── images │ └── spatial_relationship.json ├── image_level_comprehension │ ├── image_caption │ │ ├── images │ │ └── image_caption.json │ ├── image_modality │ │ ├── images │ │ └── image_modality.json │ ├── image_quality │ │ ├── images │ │ └── image_quality.json │ ├── map_recognition │ │ ├── images │ │ └── map_recognition.json │ └── scene_classification │ ├── images │ └── scene_classification.json └── single_instance_identification ├── ......

reasoning ├── assessment_reasoning │ ├── environmental_assessment │ │ ├── images │ │ └── environmental_assessment.json │ └── resource_assessment │ ├── images │ └── resource_assessment.json ├── ......

主要发现

RSVLMs表现:
- 在专门训练的遥感任务中表现出色
- 相比通用领域VLMs没有明显优势
VLM挑战:
- 细粒度感知
- 复杂场景、社会属性和特定遥感特征的高级推理
开源VLM潜力:
- 可作为专有VLM的可行替代方案
- 某些任务中表现优于GPT-4o

局限性

现有数据集问题:
- 范围单一
- 评估维度分类粗糙
- 样本和任务数量有限
- 数据泄露导致非客观性

数据来源

Google Earth
Google Earth Engine (GEE)
Sentinel卫星数据(ESA)
Landsat卫星数据(USGS)
OpenStreetMap (OSM)

使用限制

仅限学术用途
禁止商业使用

搜集汇总

数据集介绍

构建方式

CHOICE数据集的构建采用了多模态协同的方法，融合了标签驱动构建、基础模型驱动构建以及人机协同构建三种创新范式。研究团队从全球50个城市采集遥感影像数据，通过严格的质量控制流程确保10,507个问题的科学性。特别值得注意的是，该数据集采用人类专家与GPT-4协同工作的方式生成问题，并经过专业标注团队的校验，最终形成包含23个细粒度任务的层次化评估体系。这种构建方式既保证了数据来源的多样性，又确保了问题设计的专业性和准确性。

特点

作为遥感领域首个系统评估视觉语言模型能力的基准，CHOICE展现出鲜明的层次化特征和全面性。数据集包含6个二级维度和23个三级任务，覆盖感知与推理两大核心能力。其特色在于采用全新构建的选择题形式，每个问题都配有明确答案，便于客观评估模型性能。数据来源上严格避免已有公开数据集，确保评估的公正性。6.07GB的数据规模包含多时相、多模态的遥感影像，为模型评估提供了丰富的场景。

使用方法

使用CHOICE数据集时，研究人员可通过Hugging Face或Kaggle平台获取完整版本。数据集按感知与推理两大维度组织，每个子任务包含独立的图像文件夹和JSON格式的标注文件。评估流程支持端到端的性能测试，用户可参照提供的评估代码对模型进行层次化能力分析。为方便初步探索，GitHub仓库提供了包含460个样本的子集。值得注意的是，该数据集仅限学术用途，商业应用需遵守各数据源的授权协议。

背景与挑战

背景概述

CHOICE数据集由An-Xiao团队于2025年4月发布，旨在系统评估大型视觉语言模型（VLMs）在遥感领域的感知与推理能力。该数据集聚焦地球观测任务，通过构建包含6个二级维度和23个叶子任务的层次化评估体系，涵盖了图像模态识别、场景分类、环境评估等多元化任务。数据集采集自全球50个城市的遥感影像，采用人工-GPT4协同构建方式，最终形成10,507道高质量选择题。作为首个专门针对遥感领域VLMs的基准测试，CHOICE填补了该领域系统性评估工具的空白，为比较通用领域模型与专业遥感模型的性能差异提供了标准化平台。

当前挑战

在解决遥感领域VLMs评估问题时，CHOICE面临三大核心挑战：其一，遥感影像具有多尺度、多时相特性，要求模型具备细粒度感知能力，这对现有VLMs的像素级理解和时空分析能力提出严峻考验；其二，构建过程中需平衡数据多样性与质量控制，全球50个城市的数据采集涉及不同卫星源和成像条件，通过人工标注与AI协同的混合生成方式确保问题准确性；其三，避免现有遥感数据集的数据泄露问题，所有样本均为全新构建，采用严谨的隔离机制确保评估客观性。这些挑战凸显了遥感领域复杂场景下VLMs评估的特殊性与难度。

常用场景

经典使用场景

在遥感领域，CHOICE数据集为大型视觉语言模型（VLMs）的评估提供了系统化的基准。通过涵盖6个二级维度和23个叶子任务，该数据集能够全面评估模型在感知和推理能力上的表现。经典使用场景包括模型在图像级理解、单实例识别、跨实例辨别等任务中的性能测试，为研究者提供了标准化的评估框架。

解决学术问题

CHOICE数据集解决了遥感领域中缺乏系统性评估基准的问题。通过精心设计的层次化能力分类和大量高质量的问题集，该数据集填补了现有评估工具的空白。其多选问答形式确保了评估的客观性，为研究者提供了可靠的性能对比依据，推动了遥感领域模型的发展。

衍生相关工作

CHOICE数据集已经衍生出多项相关研究，特别是在遥感专用视觉语言模型的开发和评估方面。例如，基于该数据集的评估结果，研究者提出了新的模型架构和训练策略，以提升模型在复杂遥感任务中的表现。此外，该数据集还促进了开源模型与专有模型的性能对比研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集