LHRS-Align|遥感技术数据集|图像文本对齐数据集

收藏
github2024-07-16 更新2024-08-30 收录
遥感技术
图像文本对齐
下载链接:
https://github.com/NJU-LHRS/LHRS-Bot
下载链接
链接失效反馈
资源简介:
LHRS-Align,一个大规模、语义丰富且特征多样的遥感图像-文本对齐数据集。利用了OpenStreetMap的志愿地理信息VGI和Google Earth的遥感图像,数据集包含115万高质量的RS图像-文本对。
提供机构:
南京大学
创建时间:
2024-02-04
原始信息汇总

LHRS-Bot 数据集概述

数据集介绍

LHRS-Bot 是一个多模态大型语言模型(MLLM),利用全球可用的志愿者地理信息(VGI)和遥感图像(RS)。该模型展示了深度理解RS图像的能力,并具备在RS领域进行复杂推理的能力。

数据集发布信息

  • 2024年7月15日:更新了论文,可在arXiv查看。
  • 2024年7月9日:发布了评估基准LHRS-Bench
  • 2024年7月2日:论文被ECCV 2024接受,开源了训练脚本和训练数据。
  • 2024年2月7日:模型权重在Google Drive和Baidu Disk上可用。
  • 2024年2月2日:发布了代码和模型检查点。

数据集准备

安装

  1. 克隆仓库: shell git clone git@github.com:NJU-LHRS/LHRS-Bot.git cd LHRS-Bot

  2. 创建虚拟环境: shell conda create -n lhrs python=3.10 conda activate lhrs

  3. 安装依赖和包: shell pip install -e .

检查点

  • LLaMA2-7B-Chat

    • 自动下载:
      1. Hugging Face请求模型。
      2. 使用个人访问令牌登录Hugging Face。
    • 手动下载:
      • HuggingFace下载所有文件。
      • 修改配置文件中的路径。
  • LHRS-Bot Checkpoints

    • 阶段1、2、3的检查点分别在Baidu DiskGoogle Drive
    • 确保TextLoRA文件夹与FINAL.pt在同一目录。

训练

  • 数据准备和格式化遵循这里的指示。
  • 训练阶段1、2、3分别使用不同的脚本和目录。

演示

  • 在线Web UI演示使用Gradio: shell python lhrs_webui.py -c Config/multi_modal_eval.yaml --checkpoint-path ${PathToCheckpoint}.pt --server-port 8000 --server-name 127.0.0.1 --share

  • 命令行演示: shell python cli_qa.py -c Config/multi_modal_eval.yaml --model-path ${PathToCheckpoint}.pt --image-file ${TheImagePathYouWantToChat} --accelerator "gpu" --temperature 0.4 --max-new-tokens 512

致谢

感谢以下仓库的优秀工作:

声明

如果发现我们的工作有用,请在GitHub上给我们🌟并考虑引用我们的论文: tex @misc{2402.02544, Author = {Dilxat Muhtar and Zhenshi Li and Feng Gu and Xueliang Zhang and Pengfeng Xiao}, Title = {LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model}, Year = {2024}, Eprint = {arXiv:2402.02544}, }

许可证:Apache

AI搜集汇总
数据集介绍
main_image_url
构建方式
LHRS-Align数据集的构建基于多模态语言模型LHRS-Bot,该模型结合了志愿者地理信息(VGI)和遥感图像(RS)。数据集的构建过程包括三个主要阶段:首先,通过VGI和RS图像的融合,生成多模态数据;其次,利用LLaMA2-7B-Chat模型进行初步训练,形成基础模型;最后,通过多阶段的微调和优化,提升模型的性能和推理能力。每个阶段的数据处理和模型训练均有详细的脚本和配置文件支持,确保数据集的高质量和模型的有效性。
特点
LHRS-Align数据集的主要特点在于其多模态融合和深度推理能力。数据集不仅包含了丰富的遥感图像数据,还结合了全球范围内的志愿者地理信息,使得模型能够进行更为复杂和精确的推理。此外,数据集的构建过程中采用了先进的训练技术和优化策略,确保了模型在处理遥感图像时的准确性和效率。数据集的多样性和高质量为研究者和开发者提供了强大的工具,推动了遥感领域的技术进步。
使用方法
使用LHRS-Align数据集时,用户首先需要克隆GitHub仓库并创建虚拟环境,然后安装所需的依赖包。数据集的训练和评估可以通过提供的脚本进行,用户可以根据需要调整配置文件和参数。数据集的模型权重可以通过Hugging Face或百度云盘下载,确保了使用的便捷性。此外,数据集还提供了在线Web UI和命令行界面,支持多种任务如分类、视觉定位和视觉问答,用户可以根据具体需求选择合适的工具和方法进行操作。
背景与挑战
背景概述
LHRS-Align数据集是由Dilxat Muhtar、Zhenshi Li、Feng Gu、Xueliang Zhang和Pengfeng Xiao等研究人员于2024年创建的,旨在推动遥感图像与志愿者地理信息(VGI)的融合研究。该数据集的核心研究问题是如何利用大规模多模态语言模型(MLLM)增强遥感图像的理解与推理能力。LHRS-Align的发布不仅标志着在遥感领域中多模态数据处理技术的重要进展,也为相关领域的研究提供了新的工具和方法,具有显著的学术和应用价值。
当前挑战
LHRS-Align数据集在构建过程中面临多重挑战。首先,如何有效整合全球范围内的志愿者地理信息与遥感图像数据,确保数据的一致性和准确性,是一个复杂的技术问题。其次,训练大规模多模态语言模型需要大量的计算资源和高效的算法支持,这对研究团队的计算能力和算法优化提出了高要求。此外,数据集的多样性和覆盖范围也需进一步扩展,以应对不同地理环境和应用场景的需求。这些挑战不仅推动了数据集的持续改进,也为未来的研究提供了丰富的探索方向。
常用场景
经典使用场景
LHRS-Align数据集在遥感图像分析领域中具有广泛的应用前景。其经典使用场景包括利用多模态语言模型对遥感图像进行深度理解和复杂推理。通过结合志愿者地理信息(VGI)和遥感图像,LHRS-Bot能够实现对图像内容的精确分类、目标检测以及视觉问答等任务,从而为遥感数据的智能化处理提供了强有力的支持。
解决学术问题
LHRS-Align数据集解决了遥感图像分析中的多个关键学术问题。首先,它通过整合VGI数据,增强了模型的语义理解能力,解决了传统遥感图像分析中语义信息不足的问题。其次,该数据集支持多模态学习,使得模型能够在不同数据源之间进行有效融合,提升了遥感图像的解译精度。此外,LHRS-Align还推动了大规模多模态语言模型在遥感领域的应用研究,为相关领域的学术发展提供了新的方向。
衍生相关工作
LHRS-Align数据集的发布催生了多项相关研究工作。例如,基于该数据集的LHRS-Bot模型在多模态学习、遥感图像理解和复杂推理方面取得了显著进展,推动了多模态语言模型在遥感领域的应用研究。此外,LHRS-Align还启发了其他研究者在数据融合、模型优化等方面的探索,促进了遥感图像分析技术的整体进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集