AiRound, CV-BrCT

Name: AiRound, CV-BrCT
Creator: Universidade Federal de Minas Gerais, Brazil
Published: 2020-08-04 02:55:46
License: 暂无描述

arXiv2020-08-04 更新2024-06-21 收录

下载链接：

http://www.patreo.dcc.ufmg.br/multi-view-datasets/

下载链接

链接失效反馈

官方服务：

资源简介：

AiRound和CV-BrCT是两个新公开的多视角图像数据集，由巴西米纳斯吉拉斯联邦大学的研究团队创建。AiRound数据集包含3,495个图像三元组，每个三元组包括一个航空RGB图像、一个地面视角图像和一个Sentinel-2样本，覆盖全球多个地点。CV-BrCT数据集则包含24,000对航空和街景图像，主要来自巴西东南部，用于城市环境的研究。这两个数据集旨在通过结合不同视角的图像信息，提高图像分类的准确性，适用于深度学习和遥感技术的研究，特别是在城市规划和地理信息系统中的应用。

AiRound and CV-BrCT are two newly released multi-view image datasets developed by a research team from the Federal University of Minas Gerais in Brazil. The AiRound dataset contains 3,495 image triplets, each consisting of an aerial RGB image, a ground-view image, and a Sentinel-2 sample, covering multiple locations worldwide. The CV-BrCT dataset, on the other hand, includes 24,000 pairs of aerial and street-view images, primarily sourced from southeastern Brazil, and is designed for urban environment-related research. These two datasets aim to enhance the accuracy of image classification by integrating image information from different perspectives, and are suitable for research in deep learning and remote sensing technologies, particularly for applications in urban planning and geographic information systems (GIS).

提供机构：

Universidade Federal de Minas Gerais, Brazil

创建时间：

2020-08-04

搜集汇总

数据集介绍

构建方式

在遥感与计算机视觉领域，多视角数据融合已成为提升场景理解能力的关键途径。AiRound与CV-BrCT数据集的构建采用了系统化的地理信息采集与标注流程。AiRound通过维基百科网页爬虫获取全球地标名称与地理坐标，并利用Bing Maps API下载高分辨率RGB航空影像，同时结合Google Places与Google Images手动筛选地面视角图像，辅以Google Earth Engine获取Sentinel-2多光谱卫星数据，最终形成包含11个类别的1165个三元组样本。CV-BrCT则基于OpenStreetMap的公开标注数据，通过Google StaticMap与StreetView API自动采集巴西东南部地区的航空与街景图像对，并利用预训练ResNet特征进行聚类过滤以降低噪声，构建了涵盖9个城市类别的约2.4万对图像。

特点

这两个数据集在多视角场景分类研究中展现出显著的互补性与多样性。AiRound的独特之处在于其全球分布的三元组结构，每个样本包含航空、地面与多光谱三种视角，覆盖机场、桥梁、森林等11类具有高类间差异的地物，且影像空间分辨率跨度大，从亚米级到数十米级，有效模拟了真实遥感应用中的多尺度挑战。CV-BrCT则专注于城市环境，以巴西地区为背景，提供航空与街景图像对的密集标注，其类别涵盖住宅、商业、工业等典型城市功能区，并通过特征聚类后处理提升了样本的类内一致性。两者均支持早期与晚期融合实验，为多模态学习提供了基准数据。

使用方法

数据集适用于多视角场景分类、跨视图匹配及多模态融合等研究任务。使用时可遵循论文中的实验协议，采用五折交叉验证评估模型性能。对于单视角基准测试，可分别训练卷积神经网络处理航空、地面或卫星影像；在多模态融合方面，早期融合可通过修改网络输入层并联结低层特征实现，而晚期融合则可采用加权求和、多数投票等策略集成多个单视角模型的预测结果。数据已公开提供，研究者可依据任务需求选择样本划分策略，并利用预训练模型进行微调以优化分类精度，同时注意不同视角间影像分辨率的差异对特征对齐的影响。

背景与挑战

背景概述

随着遥感技术的飞速发展，卫星与航空影像在民用领域的应用日益广泛，为地理测绘、城市规划等任务提供了独特视角。然而，单一视角的影像往往存在信息局限，例如植被遮挡、云层干扰或地面细节缺失等问题，限制了其在复杂场景下的应用潜力。为此，多视角数据融合成为遥感与计算机视觉领域的重要研究方向。2020年，由巴西米纳斯吉拉斯联邦大学等机构的研究团队Gabriel Machado等人提出了AiRound与CV-BrCT两个新型多视角数据集，旨在填补公开基准数据在空-地多模态影像融合方面的空白。AiRound包含全球范围内11类场景的三元组影像（航空RGB、地面视角与Sentinel-2多光谱数据），而CV-BrCT则聚焦巴西东南部城市环境，提供8类建筑场景的航空-街景图像对。这些数据集的创建推动了多视角场景分类、跨视图匹配等多模态学习任务的发展，为深入探索空-地影像互补性提供了重要基础。

当前挑战

在多视角场景分类领域，核心挑战在于如何有效融合不同视角影像的互补信息以提升分类精度。航空影像虽能提供宏观布局，却难以捕捉地面细节；而地面影像虽富含局部特征，却缺乏整体空间上下文。因此，设计能够自适应整合多源特征的融合算法成为关键难题。在数据集构建过程中，研究者面临多重挑战：一是数据采集的复杂性，需确保不同视角影像在相同地理坐标上的精确配对，且需克服API接口限制（如Google Street View无法获取河流等自然场景）；二是类别平衡与噪声控制，尤其是CV-BrCT依赖OpenStreetMap众包数据，存在标注不一致与异常样本问题；三是多模态数据对齐，Sentinel-2多光谱影像与高分辨率航空影像的空间分辨率差异显著，增加了特征融合的难度。

常用场景

经典使用场景

在遥感与计算机视觉交叉领域，AiRound与CV-BrCT数据集为多视角场景分类提供了基准平台。这些数据集通过整合高空航拍图像、地面视角图像以及多光谱卫星数据，构建了丰富的多模态信息源。经典使用场景涉及利用早期融合与晚期融合策略，将不同视角的图像特征进行有效结合，以提升场景分类的准确性与鲁棒性。例如，在AiRound数据集中，研究者可以运用卷积神经网络对机场、桥梁、森林等11类地理场景进行识别，通过融合空中与地面视角，弥补单一视角的信息缺失，从而实现对复杂场景的精细化理解。

实际应用

在实际应用层面，AiRound与CV-BrCT数据集支持了多项城市管理与环境监测任务。例如，在土地利用规划中，结合高空与地面图像可以精准识别建筑类型（如住宅、医院、工业区），辅助城市更新与基础设施部署。在生态保护领域，多视角数据有助于监测森林覆盖、水体变化及自然保护区状态，实现动态环境评估。此外，数据集还可用于文化遗产数字化，通过融合不同视角对教堂、雕像等历史建筑进行三维重建与保护。这些应用不仅提升了自动化分析的效率，也为政府决策与商业智能提供了可靠的数据基础。

衍生相关工作

基于AiRound与CV-BrCT数据集，学术界衍生了一系列经典研究工作，主要集中在多视角融合方法与跨模态学习框架上。例如，研究者借鉴数据集的早期融合策略，开发了适应多输入通道的卷积神经网络变体，如改进的DenseNet与ResNet架构，以优化特征提取过程。同时，晚期融合技术如加权求和、多数投票等方法被广泛应用于提升分类性能，促进了多模态决策理论的发展。此外，数据集还启发了跨视角地理定位、城市树木检测及建筑物实例分割等延伸课题，推动了遥感与计算机视觉领域的交叉创新，为后续大规模多视角数据集构建树立了范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集