five

DIOR-RSVG, RSICD, LAION5B, UCM Captions, CapERA, RSITMD, FloodNet, RSVQAxBEN, RSVQA HR

收藏
github2024-05-31 更新2024-06-15 收录
下载链接:
https://github.com/enkaranfiles/remote-sensing-dataset-construction
下载链接
链接失效反馈
官方服务:
资源简介:
视觉定位数据集DIOR-RSVG已完成,包含17.4k样本;描述数据集RSICD已完成,包含10.9k样本;描述数据集LAION5B已完成,包含10.9k样本;描述数据集UCM Captions已完成,包含2.1k样本;描述数据集CapERA已完成,包含1.4k样本;描述数据集RSITMD已完成,包含4.7k样本;视觉问答数据集FloodNet已完成,包含1.4k样本;视觉问答数据集RSVQAxBEN已完成,包含590k样本;视觉问答数据集RSVQA HR已完成,包含10.6k样本。

The visual localization dataset DIOR-RSVG has been completed, containing 17.4k samples; the description dataset RSICD has been completed, containing 10.9k samples; the description dataset LAION5B has been completed, containing 10.9k samples; the description dataset UCM Captions has been completed, containing 2.1k samples; the description dataset CapERA has been completed, containing 1.4k samples; the description dataset RSITMD has been completed, containing 4.7k samples; the visual question answering dataset FloodNet has been completed, containing 1.4k samples; the visual question answering dataset RSVQAxBEN has been completed, containing 590k samples; the visual question answering dataset RSVQA HR has been completed, containing 10.6k samples.
创建时间:
2024-05-25
原始信息汇总

数据集概述

视觉定位数据集

数据集类型 数据集名称 状态 样本数量
视觉定位 DIOR-RSVG 完成 17,400

描述数据集

数据集类型 数据集名称 状态 样本数量
描述数据集 RSICD 完成 10,900
描述数据集 LAION5B 完成 10,900
描述数据集 UCM Captions 完成 2,100
描述数据集 CapERA 完成 1,400
描述数据集 RSITMD 完成 4,700

视觉问答数据集

数据集类型 数据集名称 状态 样本数量
视觉问答数据集 FloodNet 完成 1,400
视觉问答数据集 RSVQAxBEN 完成 590,000
视觉问答数据集 RSVQA HR 完成 10,600
搜集汇总
数据集介绍
main_image_url
构建方式
在构建遥感数据集的过程中,本项目借鉴了Apple的MM-LLM Pretraining论文(https://arxiv.org/abs/2403.09611),并整合了多种过滤选项,以优化预训练过程。这些过滤选项旨在提升数据集的质量,从而显著增强预训练模型的性能。数据集的构建不仅涵盖了视觉定位、图像描述和视觉问答等多个领域,还通过Google Drive API和类似Pan.baidu的中国域名服务,确保了数据集的广泛可访问性。
使用方法
使用本数据集时,用户可通过Google Drive API或类似Pan.baidu的中国域名服务获取数据。数据集的结构清晰,便于用户根据需求选择合适的子集进行训练或验证。对于视觉定位、图像描述和视觉问答等不同任务,用户可以根据数据集提供的样本数量和质量,灵活调整模型参数,以达到最佳的训练效果。
背景与挑战
背景概述
在遥感领域,视觉语言数据集的构建对于提升基础模型(FM)的性能至关重要。DIOR-RSVG、RSICD、LAION5B等数据集的创建,旨在通过丰富的视觉和语言信息,推动遥感图像的理解与分析。这些数据集由多个研究机构和学者共同开发,核心研究问题集中在如何有效结合视觉与语言信息,以提升遥感图像的自动描述和问答能力。自创建以来,这些数据集在遥感图像处理领域产生了深远影响,为后续研究提供了宝贵的资源。
当前挑战
尽管这些遥感视觉语言数据集在推动领域发展方面取得了显著成果,但仍面临诸多挑战。首先,数据集的构建过程中,如何确保样本的多样性和代表性是一个重要问题,特别是在处理不同地理区域和气候条件下的遥感图像时。其次,数据集的标注质量直接影响模型的训练效果,因此如何提高标注的准确性和一致性是一个持续的挑战。此外,随着遥感技术的进步,数据集需要不断更新以反映最新的技术发展和应用需求,这要求研究者持续投入资源进行数据集的维护和扩展。
常用场景
经典使用场景
在遥感领域,DIOR-RSVG数据集因其丰富的视觉定位样本而成为经典。该数据集广泛应用于视觉定位任务,通过提供精确的地理位置标注,帮助模型学习如何在复杂的地理环境中识别和定位特定目标。此外,RSICD和LAION5B等字幕生成数据集在遥感图像的自动描述生成中表现突出,为图像理解提供了丰富的语言上下文。
解决学术问题
这些遥感数据集在解决学术研究中的多个关键问题上发挥了重要作用。例如,DIOR-RSVG通过提供高精度的视觉定位数据,解决了遥感图像中目标定位的难题,推动了相关算法的发展。RSICD等字幕生成数据集则通过提供图像与文本的对应关系,解决了遥感图像自动描述生成的挑战,为图像理解和语义分析提供了新的研究方向。
实际应用
在实际应用中,这些遥感数据集展现了广泛的应用潜力。DIOR-RSVG数据集在灾害监测和资源管理中被广泛应用,通过精确的视觉定位技术,提高了灾害响应和资源分配的效率。RSICD等字幕生成数据集则在智能农业和城市规划中发挥了重要作用,通过自动生成图像描述,帮助决策者更好地理解和管理地理信息。
数据集最近研究
最新研究方向
在遥感领域,视觉语言数据集的构建已成为前沿研究的热点。特别是,结合多模态大语言模型(MM-LLM)的预训练技术,如Apple的MM-LLM Pretraining论文所提出的方法,正在被广泛探索。这些技术通过整合多种过滤选项,显著提升了预训练模型的性能。此外,视觉基础模型的指令调优和预训练数据集的构建,如DIOR-RSVG、RSICD等,为遥感图像的自动描述和问答系统提供了丰富的数据支持,推动了遥感图像理解与分析的深度发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务