C2Seg|遥感数据数据集|语义分割数据集

arXiv2023-10-03 更新2024-06-21 收录

遥感数据

语义分割

下载链接：

https://github.com/danfenghong

下载链接

链接失效反馈

资源简介：

C2Seg数据集是由中国科学院航空信息研究所创建的，用于跨城市语义分割任务的多模态遥感基准数据集。该数据集包含两个跨城市场景：德国的柏林-奥格斯堡和中国的北京-武汉。数据集通过EnMAP、Sentinel-2、Sentinel-1、Gaofen-5、Gaofen-6和Gaofen-3卫星任务收集，涵盖了高光谱、多光谱和合成孔径雷达（SAR）数据。C2Seg数据集旨在通过提供多样化的遥感信息和先进的解决方案，促进AI模型在跨城市或区域案例中的泛化能力。此外，数据集还用于IEEE WHISPERS2023会议的挑战任务，促进了跨城市多模态语义分割的研究进展。

提供机构：

中国科学院航空信息研究所

创建时间：

2023-09-27

AI搜集汇总

数据集介绍

构建方式

C2Seg数据集的构建旨在解决跨城市遥感图像语义分割任务中缺乏高质量多模态遥感基准数据集的问题。该数据集包括两个跨城市场景：德国的柏林-奥格斯堡和中国北京-武汉。数据集由高光谱、多光谱和合成孔径雷达（SAR）数据组成，这些数据分别来自EnMAP、Sentinel-2、Sentinel-1、Gaofen-5、Gaofen-6和Gaofen-3等卫星任务。为了确保数据集的一致性，所有图像都被预处理以匹配10米的地面采样距离（GSD）。此外，数据集还包含13个不同的土地利用和土地覆盖语义类别，这些类别是通过从OpenStreetMap（OSM）LULC平台获取土地利用和土地覆盖（LULC）标签数据并手动检查和补充得到的。

使用方法

使用C2Seg数据集时，首先需要对数据进行预处理，包括波段归一化和裁剪图像。然后，可以使用多种深度学习模型进行训练和测试，例如DeepLabv3、SegNet、FastFCN、AdaptSeg、DSAN、DualHR、SegFormer和HighDAN。在训练过程中，可以使用多类交叉熵损失和Dice损失来优化模型。在评估模型性能时，可以计算像素级总体准确率（OA）、平均交并比（mIoU）和平均F1分数（mF1）。此外，还可以进行消融研究，以评估不同组件对跨城市语义分割性能的影响。

背景与挑战

背景概述

随着人工智能在遥感领域的应用日益广泛，特别是在单一城市环境中的应用，如单城市或区域，人工智能模型在跨城市或区域的案例研究中遇到了性能瓶颈，这主要是由于缺乏多样化的遥感信息和高泛化能力的先进解决方案。为了解决这个问题，研究人员构建了一个新的多模态遥感基准数据集C2Seg，用于跨城市语义分割任务的研究。C2Seg数据集由两个跨城市场景组成，即德国的柏林-奥格斯堡和中国的北京-武汉。此外，还提出了一种高分辨率域适应网络HighDAN，以促进人工智能模型在多城市环境中的泛化能力。HighDAN能够以并行高到低分辨率融合的方式保留研究城市场景的空间拓扑结构，并通过对抗性学习缩小不同城市之间遥感图像表示的巨大差异。此外，HighDAN还考虑了Dice损失，以减轻由于跨城市因素引起的类别不平衡问题。

当前挑战

C2Seg数据集和相关领域的主要挑战包括：1) 缺乏高质量的遥感数据集，以更好地理解跨城市环境；2) 目前开发的方法更倾向于关注单一城市环境中性能的极致追求，而不是提高模型在多样化城市环境（例如，不同的城市或地区）中的泛化能力。此外，构建C2Seg数据集的过程中，研究人员也面临着如何有效地融合来自不同遥感平台或传感器的数据，以提供更丰富、更多样化的互补信息的挑战。

常用场景

经典使用场景

C2Seg数据集主要用于解决跨城市语义分割任务，该任务在人工智能领域具有广泛的应用前景。通过使用高分辨率领域自适应网络HighDAN，C2Seg数据集能够有效提高人工智能模型在多城市环境中的泛化能力，从而更好地理解和监测当代城市环境。该数据集由两个跨城市场景组成，即柏林-奥格斯堡（德国）和北京-武汉（中国），并包含了高光谱、多光谱和合成孔径雷达（SAR）等多种遥感数据。C2Seg数据集的构建旨在推动跨城市语义分割研究的发展，并为相关研究提供高质量的多模态遥感基准数据集。

解决学术问题

C2Seg数据集解决了当前遥感图像语义分割任务中存在的跨城市或跨区域研究进展缓慢的问题。由于缺乏高质量的多模态遥感基准数据集和当前开发的方法主要集中在单个城市环境中的性能追求，导致跨城市或区域研究中的语义分割模型泛化能力有限。C2Seg数据集的构建提供了丰富的多模态遥感数据，并通过HighDAN网络架构实现了跨城市语义分割的领域自适应，从而有效解决了跨城市或区域研究中的语义分割问题。

实际应用

C2Seg数据集在实际应用场景中具有广泛的应用前景。在城市规划和管理、土地使用、空间布局、信息传输等方面，跨城市语义分割技术可以提供重要的数据支持。例如，通过C2Seg数据集和HighDAN网络架构，可以实现对城市土地利用和土地覆盖的分类，从而为城市规划和土地管理提供科学依据。此外，C2Seg数据集还可以用于监测城市环境变化、灾害预警等方面，为城市可持续发展提供支持。

数据集最近研究

相关研究论文

1
Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks中国科学院航空信息研究所 · 2023年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

PlantVillage

在这个数据集中，39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录