XLRS-Bench_caption_zh

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/initiacms/XLRS-Bench_caption_zh

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个遥感图像数据集，包含来源于DOTA、ITCVD、MiniFrance、HRSCD以及Toronto、Potsdam等多个数据源的图像。数据集适用于学术研究，部分图像受到Creative Commons Attribution-NonCommercial 4.0 International License等不同许可证的保护。

This is a remote sensing image dataset containing images from multiple data sources including DOTA, ITCVD, MiniFrance, HRSCD, Toronto, Potsdam and others. The dataset is intended for academic research purposes, and some of the images are protected under different licenses such as the Creative Commons Attribution-NonCommercial 4.0 International License.

创建时间：

2025-10-30

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-NC-SA-4.0
语言: 中文
领域: 遥感
数据规模: 小于1K

数据集来源

DOTA: RGB图像来自Google Earth和CycloMedia（仅限学术用途，禁止商业用途）
ITCVD: 采用CC-BY-NC-SA-4.0许可证
MiniFrance和HRSCD: 采用IGN的"开放许可证"
Toronto和Potsdam: 数据仅限研究用途，禁止用于其他目的

使用条款

数据集标注采用CC-BY-NC-SA-4.0许可证
禁止商业用途
数据不得分发给第三方
使用Toronto数据时需包含特定致谢声明

引用文献

tex @inproceedings{wang2025xlrs, title={Xlrs-bench: Could your multimodal llms understand extremely large ultra-high-resolution remote sensing imagery?}, author={Wang, Fengxiang and Wang, Hongzhen and Guo, Zonghao and Wang, Di and Wang, Yulin and Chen, Mingshuo and Ma, Qiang and Lan, Long and Yang, Wenjing and Zhang, Jing and others}, booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference}, pages={14325--14336}, year={2025} }

@article{wang2025geollava, title={GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution}, author={Wang, Fengxiang and Chen, Mingshuo and Li, Yueying and Wang, Di and Wang, Haotian and Guo, Zonghao and Wang, Zefan and Shan, Boqi and Lan, Long and Wang, Yulin and others}, journal={arXiv preprint arXiv:2505.21375}, year={2025} }

搜集汇总

数据集介绍

构建方式

在遥感影像分析领域，XLRS-Bench_caption_zh数据集通过整合多个权威遥感数据源精心构建而成，其图像来源于DOTA、ITCVD、MiniFrance、HRSCD以及Toronto和Potsdam等公开数据集，覆盖了多样化的地理场景和分辨率层次。构建过程中严格遵循各数据源的许可协议，确保学术使用的合规性，同时采用人工标注与自动化流程相结合的方式生成高质量的中文描述文本，为多模态大语言模型在超高分辨率遥感影像理解方面的研究提供了坚实基础。

特点

该数据集以其极大规模和超高分辨率影像为核心特色，囊括了少于千幅的精选样本，每幅影像均配有精确的中文描述，凸显了其在遥感领域的专业性与实用性。影像来源广泛，涵盖了城市、自然等多种环境类型，且均经过严格的版权与使用限制审查，保障了数据使用的合法性与安全性。这些特点使得XLRS-Bench_caption_zh成为评估多模态大模型在复杂遥感场景中理解能力的理想基准，推动了遥感智能分析技术的发展。

使用方法

针对遥感影像与自然语言处理交叉研究，该数据集主要用于训练和评估多模态大语言模型，支持模型对超高分辨率影像进行中文描述生成等任务。用户可通过HuggingFace平台直接访问数据集，并参考相关GitHub仓库获取详细的评估代码与使用指南。在使用过程中，需严格遵守数据许可条款，仅限非商业研究目的，并正确引用原始论文以确保学术规范性，从而有效促进遥感多模态技术的创新与应用。

背景与挑战

背景概述

遥感影像分析作为地理信息科学的前沿领域，长期面临着高分辨率数据与语义理解之间的鸿沟。XLRS-Bench_caption_zh数据集由国防科技大学等机构于2025年联合构建，聚焦于超大规模超高分辨率遥感影像的多模态理解。该数据集通过整合DOTA、ITCVD等权威遥感数据源，旨在解决遥感影像中复杂地物场景的语义描述生成问题，为多模态大语言模型在遥感领域的适配性评估提供基准，显著推动了遥感智能解译从感知到认知的范式转变。

当前挑战

在遥感影像描述生成领域，核心挑战在于如何突破传统模型对超高分辨率图像的处理极限，同时实现跨尺度地物特征的语义关联。数据构建过程中面临多重技术壁垒：需协调来自Google Earth、IGN等异构数据源的版权协议与格式规范；针对万像素级影像需设计高效的特征提取架构；此外，中文描述标注需克服专业地物术语与自然语言表述间的领域鸿沟，确保标注结果兼具地理准确性与语言流畅性。

常用场景

经典使用场景

在遥感图像分析领域，XLRS-Bench_caption_zh数据集作为多模态大语言模型的关键评估基准，其经典应用场景集中于对超高分辨率遥感影像的语义理解与描述生成。该数据集通过整合来自DOTA、ITCVD等多个权威来源的标注数据，为模型提供了涵盖城市建筑、自然地貌等复杂场景的视觉-文本配对样本，有效支撑了模型在细粒度物体识别与空间关系解析方面的性能验证。

解决学术问题

该数据集显著推进了遥感视觉-语言跨模态研究的深度，解决了传统方法在极端大尺寸超高分辨率影像理解中的技术瓶颈。通过构建标准化评估框架，它不仅为多模态大语言模型在遥感领域的可扩展性研究提供实证基础，还促进了影像语义分割、场景分类等核心任务的算法创新，对提升地理空间智能分析的精度与效率具有重要学术价值。

衍生相关工作

以该数据集为基石，衍生出多项里程碑式研究工作，例如GeoLLaVA-8K通过扩展模型分辨率至8K级别，突破了遥感多模态理解的尺度限制；同期提出的评估框架则系统性验证了不同模型在极端分辨率下的泛化性能。这些成果共同构建了遥感多模态大模型的技术体系，为后续研究提供了方法论借鉴与性能基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集