LHRS-Align|遥感技术数据集|图像文本对齐数据集
收藏LHRS-Bot 数据集概述
数据集介绍
LHRS-Bot 是一个多模态大型语言模型(MLLM),利用全球可用的志愿者地理信息(VGI)和遥感图像(RS)。该模型展示了深度理解RS图像的能力,并具备在RS领域进行复杂推理的能力。
数据集发布信息
- 2024年7月15日:更新了论文,可在arXiv查看。
- 2024年7月9日:发布了评估基准LHRS-Bench。
- 2024年7月2日:论文被ECCV 2024接受,开源了训练脚本和训练数据。
- 2024年2月7日:模型权重在Google Drive和Baidu Disk上可用。
- 2024年2月2日:发布了代码和模型检查点。
数据集准备
安装
-
克隆仓库: shell git clone git@github.com:NJU-LHRS/LHRS-Bot.git cd LHRS-Bot
-
创建虚拟环境: shell conda create -n lhrs python=3.10 conda activate lhrs
-
安装依赖和包: shell pip install -e .
检查点
-
LLaMA2-7B-Chat:
- 自动下载:
- 从Hugging Face请求模型。
- 使用个人访问令牌登录Hugging Face。
- 手动下载:
- 从HuggingFace下载所有文件。
- 修改配置文件中的路径。
- 自动下载:
-
LHRS-Bot Checkpoints:
- 阶段1、2、3的检查点分别在Baidu Disk和Google Drive。
- 确保
TextLoRA文件夹与FINAL.pt在同一目录。
训练
- 数据准备和格式化遵循这里的指示。
- 训练阶段1、2、3分别使用不同的脚本和目录。
演示
-
在线Web UI演示使用Gradio: shell python lhrs_webui.py -c Config/multi_modal_eval.yaml --checkpoint-path ${PathToCheckpoint}.pt --server-port 8000 --server-name 127.0.0.1 --share
-
命令行演示: shell python cli_qa.py -c Config/multi_modal_eval.yaml --model-path ${PathToCheckpoint}.pt --image-file ${TheImagePathYouWantToChat} --accelerator "gpu" --temperature 0.4 --max-new-tokens 512
致谢
感谢以下仓库的优秀工作:
声明
如果发现我们的工作有用,请在GitHub上给我们🌟并考虑引用我们的论文: tex @misc{2402.02544, Author = {Dilxat Muhtar and Zhenshi Li and Feng Gu and Xueliang Zhang and Pengfeng Xiao}, Title = {LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model}, Year = {2024}, Eprint = {arXiv:2402.02544}, }
许可证:Apache




