BRSIC

Name: BRSIC
Creator: 西北工业大学光学与电子学院(iOPEN)
Published: 2025-03-07 00:31:34
License: 暂无描述

arXiv2025-03-07 更新2025-03-08 收录

下载链接：

https://github.com/mrazhou/BRSIC

下载链接

链接失效反馈

官方服务：

资源简介：

BRSIC数据集是一个综合性的中英双语远程Sensing图像描述数据集，由西北工业大学光学与电子学院构建。该数据集在三个广泛使用的英文注释数据集基础上，增加了中文注释，包含13634幅图像和68170句中英双语描述。数据集的构建首先利用机器翻译生成中文描述，然后通过人工校正消除翻译错误，保证了数据质量同时大幅减少了人工标注的时间和精力。该数据集旨在为多语言远程Sensing图像描述研究提供重要资源。

The BRSIC dataset is a comprehensive Chinese-English bilingual remote sensing image captioning dataset, constructed by the School of Optics and Electronics of Northwestern Polytechnical University. Built upon three widely used English annotated datasets, this dataset adds Chinese annotations, containing 13,634 images and 68,170 Chinese-English bilingual captions. During the dataset construction process, machine translation was first utilized to generate Chinese captions, followed by manual correction to eliminate translation errors, which ensures data quality while significantly reducing the time and labor required for manual annotation. This dataset aims to provide a valuable resource for research on multilingual remote sensing image captioning.

提供机构：

西北工业大学光学与电子学院(iOPEN)

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

BRSIC数据集的构建过程首先涉及对三个广泛使用的英文遥感图像描述数据集（UCM-Captions、Sydney-Captions和RSICD）进行中文描述的标注。这个过程采用了一种混合方法，结合了机器翻译和人工校正，以确保效率和质量的平衡。首先使用先进的机器翻译系统（如Google Translate和Baidu Translate）生成初步的中文描述，然后由专业标注员进行审查和校正，以确保领域特定术语的准确翻译、中文中空间关系的自然表达以及句子结构的适应性。这种综合的标注过程产生了一个高质量的 bilingual数据集，保留了原始英文描述的语义内容，同时在适当的情况下融入了自然的中文语言特征。

特点

BRSIC数据集的特点在于其全面的双语资源，包含了13,634张图像和68,170条中英文双语描述。它填补了遥感图像描述领域中缺乏非英语描述数据集和多语言模型能力评估的空白。该数据集不仅提供了丰富的视觉和文本特征，还揭示了英语和中文描述在词汇大小、词频分布、物体分布和词性分布上的差异，为多语言遥感图像描述研究提供了宝贵的数据基础。

使用方法

使用BRSIC数据集的方法包括零样本推理、监督微调和多语言训练。这些方法旨在评估和提升模型在处理多语言遥感任务时的性能。此外，跨数据集迁移实验也揭示了传统模型在视觉相似数据集之间迁移时的优势，以及大型视觉语言模型在不同数据集规模和语言之间的稳健性和平衡能力。这些发现为多语言遥感图像描述研究的进步提供了有价值的见解。

背景与挑战

背景概述

随着遥感技术的发展，遥感图像注释（RSIC）作为连接视觉和语言的交叉领域，其目标是自动生成自然语言描述，以解释遥感图像中的特征和场景。尽管在开发复杂的视觉语言模型（VLM）方法和大规模数据集方面取得了显著进展，但两个关键挑战仍然存在：非英语描述数据集的稀缺性以及缺乏多语言模型能力评估。这些局限性从根本上阻碍了RSIC的进步和实践部署，特别是在大型VLM时代。为了解决这些挑战，本文介绍了BRSIC（双语遥感图像注释）数据集，这是一个全面的双语数据集，通过将中文描述添加到三个已建立的英文RSIC数据集中，涵盖了13,634张图像和68,170个双语注释。在此基础上，我们开发了一个系统的评估框架，该框架解决了评估协议中的普遍不一致性，并通过在BRSIC上进行标准化重新训练，使模型性能的严格评估成为可能。此外，我们还对八个最先进的LVLM进行了广泛的实证研究，检查了它们在零样本推理、监督微调和多语言训练等多个范式中的能力。这项全面的评估为当前LVLM在处理多语言遥感任务方面的优势和局限性提供了宝贵的见解。我们的跨数据集迁移实验揭示了有趣的发现。当传统模型在视觉相似的数据库之间迁移时表现出更好的性能，LVLM在各种数据集规模和语言之间表现出更稳健和平衡的能力。这些发现为推进多语言RSIC研究提供了有用的见解。代码和数据将在https://github.com/mrazhou/BRSIC上提供。

当前挑战

BRSIC数据集面临的挑战包括：1)非英语描述数据集的稀缺性，限制了模型的多样性和适应性；2)缺乏多语言能力评估，使得模型在不同语言环境下的性能难以评估；3)构建过程中，机器翻译可能无法完全准确地传达领域特定的术语和复杂的句子结构，需要人工校对以确保数据质量；4)数据集分布不均，特别是训练、验证和测试集之间可能存在显著的分布差异，影响了模型性能的评估；5)中英文数据集在词汇量和词频分布上存在差异，增加了模型在中英文描述中的建模复杂性，导致中文描述的性能低于英文描述。

常用场景

经典使用场景

BRSIC数据集是首个针对遥感图像描述的双语基准数据集，包含13,634张图像，配对有68,170条中英文双语描述。该数据集主要应用于多语言视觉语言学习，尤其是在遥感图像描述领域。通过提供平行英文和中文描述，BRSIC数据集为模型训练和评估提供了一个公平、统一的标准，有助于研究人员更深入地理解多语言视觉语言模型在不同语言环境下的性能。

解决学术问题

BRSIC数据集解决了遥感图像描述领域长期存在的两个关键问题：非英语描述数据集的稀缺性和模型多语言能力评估的缺乏。通过引入中文描述，BRSIC数据集为多语言视觉语言学习提供了丰富的资源，有助于推动多语言遥感图像描述研究的发展。同时，BRSIC数据集还提供了一个系统的评估框架，通过在相同条件下重新训练和评估现有模型，解决了现有评估协议不一致的问题，为模型性能评估提供了可靠的基础。

衍生相关工作

BRSIC数据集的提出衍生了多个相关研究工作。首先，BRSIC数据集的构建为多语言视觉语言学习提供了新的研究方向，激发了更多关于多语言模型训练和评估的研究。其次，BRSIC数据集的评估框架为模型性能评估提供了可靠的标准，促进了多语言视觉语言模型的快速发展。此外，BRSIC数据集的研究结果也为多语言遥感图像描述技术的实际应用提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集