HQRS-IT-210K
收藏arXiv2025-07-22 更新2025-07-24 收录
下载链接:
https://github.com/YiguoHe/HQRS-210K-and-HQRS-CLIP
下载链接
链接失效反馈官方服务:
资源简介:
HQRS-IT-210K数据集是一个高质量、大规模的遥感图像与文本配对数据集,由北京智能游戏与决策实验室(IGDL)的研究团队创建。该数据集包含约210,000张遥感图像和1.3百万个文本描述。数据集的创建利用了多视角生成与集成(MpGI)方法,通过多模态大型语言模型(MLLM)和大型语言模型(LLM)生成高质量、详细和全面的文本描述。该数据集旨在提升遥感视觉语言模型的性能,并为各种下游任务提供训练数据。
HQRS-IT-210K dataset is a high-quality, large-scale remote sensing image-text pairing dataset created by the research team of the Beijing Intelligent Games and Decision Laboratory (IGDL). It contains approximately 210,000 remote sensing images and 1.3 million text descriptions. The dataset is developed using the Multi-View Generation and Integration (MpGI) approach, with high-quality, detailed and comprehensive text descriptions generated via multimodal large language models (MLLMs) and large language models (LLMs). This dataset is designed to enhance the performance of remote sensing vision-language models and provide training data for various downstream tasks.
提供机构:
北京, 中国
创建时间:
2025-07-22
原始信息汇总
HQRS-210K-and-HQRS-CLIP 数据集概述
数据集来源
- 该数据集来源于论文《Improving Vision-Language Foundation Models for Remote Sensing via MLLMs and LLMs-Based High-Quality Image-Text Dataset Generation》。
数据集内容
- 包含HQRS-210K和HQRS-CLIP两个部分。
- 与遥感领域相关的高质量图文数据集。
相关资源
- 论文链接将发布在arXiv上。
- 将发布HQRS-CLIP和RS-COCa模型的检查点。
- 将发布训练和测试代码。
当前状态
- 代码、数据集和模型即将发布。
搜集汇总
数据集介绍

构建方式
HQRS-IT-210K数据集的构建采用了创新的两阶段方法MpGI(多视角生成与整合)。在第一阶段,通过Rule-MLLM接力生成和MLLMs生成方法,从不同视角为每张遥感图像生成独特且详细的描述。第二阶段利用大型语言模型(LLMs)整合这些多样化描述,形成包含多视角细节的综合标题。整个过程涉及23个公开卫星和无人机影像数据集,经过严格的数据清洗和去重处理,最终构建了包含约21万张图像和130万条标题的高质量数据集。
特点
HQRS-IT-210K数据集以其高质量和多样性著称。其标题平均长度达35.6词,远超人工标注数据集的12词平均水平,提供了更丰富的语义信息。数据集通过多视角描述整合,确保了标题的准确性和全面性,有效避免了类别模糊问题。此外,数据集的图像来源多样,涵盖分类、目标检测和分割等多种任务,增强了模型的泛化能力。标题的自然语言表达和结构多样性也为视觉语言模型的训练提供了优质数据支持。
使用方法
该数据集可直接用于训练和微调视觉语言基础模型(VLFMs)。研究团队已基于HQRS-IT-210K成功微调了CLIP和CoCa模型,分别开发出HQRS-CLIP和RS-CoCa。使用时,用户可通过提供的GitHub仓库获取数据集和预训练模型,进行零样本分类、少样本分类、图像-文本检索等下游任务。对于生成任务,建议使用完整数据集训练;对于判别任务,即使使用部分数据也能取得优异性能。数据集的长期文本检索测试集还可用于评估模型在复杂描述场景下的表现。
背景与挑战
背景概述
HQRS-IT-210K数据集由Yiguo He等人于2025年提出,旨在解决遥感(RS)领域中视觉-语言基础模型(VLFMs)训练数据稀缺的问题。该数据集包含约21万张遥感图像和130万条文本描述,通过多视角生成与集成(MpGI)方法生成高质量的图像-文本对。HQRS-IT-210K的创建标志着遥感领域在视觉-语言模型训练数据质量上的重大突破,显著提升了模型在下游任务中的表现,如零样本分类、少样本分类和图像-文本检索。
当前挑战
HQRS-IT-210K数据集面临的挑战主要包括两方面:1) 领域问题的挑战:遥感图像与自然图像不同,其内容复杂且缺乏公开可用的高质量文本描述,导致图像-文本对齐困难;2) 构建过程的挑战:生成高质量文本描述需要克服多模态大语言模型(MLLM)的幻觉问题,同时需确保描述的多样性和准确性。此外,遥感图像的标注需要专业知识,手动标注成本高昂且效率低下,进一步增加了数据集构建的难度。
常用场景
经典使用场景
HQRS-IT-210K数据集在遥感视觉-语言模型(VLFM)的训练与优化中展现出卓越的应用价值。该数据集通过多视角生成与整合(MpGI)方法,为21万张遥感图像生成了130万条高质量文本描述,显著提升了模型在零样本分类、少样本分类以及图像-文本检索等下游任务中的表现。其核心优势在于解决了传统遥感数据集中文本描述单一、语义信息不足的问题,为跨模态对齐提供了丰富的训练样本。
实际应用
在实际应用中,HQRS-IT-210K支撑的模型已成功部署于城市土地利用监测、灾害评估等场景。例如,RS-CoCa模型生成的描述可精确识别图像中的工业设施、交通网络等要素,其描述质量甚至超越人工标注。在语义定位任务中,基于该数据训练的模型对目标区域的关注度(Rsu)提升6.4%,为高分辨率遥感影像的自动化解译提供了可靠的技术路径。
衍生相关工作
该数据集直接催生了HQRS-CLIP和RS-CoCa两大标志性模型,并推动了遥感多模态大模型(如RS-LLaVA、BITA)的发展。其构建方法被SkyScript等后续工作借鉴,提出的长文本检索基准LongRET3-test已成为评估RS VLMs的新标准。相关技术方案更延伸至医学影像(MedCLIP)等领域,验证了跨领域迁移的潜力。
以上内容由遇见数据集搜集并总结生成



