SAMRS|遥感技术数据集|数据集应用数据集

arXiv2023-10-13 更新2024-07-30 收录

遥感技术

数据集应用

下载链接：

https://github.com/ViTAE-Transformer/SAMRS

下载链接

链接失效反馈

资源简介：

SAMRS数据集是由武汉大学利用Segment Anything Model (SAM) 和现有的遥感物体检测数据集开发的大规模遥感分割数据集。该数据集包含105,090张图像和1,668,241个实例，远超现有高分辨率遥感分割数据集的规模。SAMRS数据集提供了物体类别、位置和实例信息，可用于语义分割、实例分割和物体检测。数据集的创建过程利用了SAM模型的高效标注能力，通过现有的物体检测标注来获取像素级的语义标签。SAMRS数据集的应用领域包括农业监测、城市规划和环境保护等，旨在解决由于遥感图像标注困难和高成本导致的大量未标注数据问题。

提供机构：

武汉大学

创建时间：

2023-05-03

原始信息汇总

SAMRS 数据集概述

数据集名称

SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model

数据集简介

SAMRS 是一个利用 Segment Anything Model (SAM) 和现有的遥感物体检测数据集开发的高效管道生成的大规模遥感分割数据集。SAMRS 在规模上超越了现有高分辨率遥感分割数据集几个数量级，并提供了物体类别、位置和实例信息，可用于语义分割、实例分割和物体检测，无论是单独使用还是组合使用。

数据集内容

图像数量：10,5090 张图像
类别多样性：继承了原始检测数据集的类别，使得类别更加多样化
应用场景：适用于语义分割、实例分割和物体检测

数据集版本更新

2024.03.25：发布了旋转边界框版本的 SOTA (SOTA-RBB)
2023.12.07：发布了 SAMRS 数据集
2023.09.30：发布了实例和检测标签
2023.09.26：NeurIPS 版本在 arxiv 上发布
2023.09.23：发布了生成 SAMRS 数据集的代码
2023.09.22：论文被 NeurIPS 2023 数据集和基准测试轨道接受
2023.08.30：发布了 SAMRS 图像
2023.06.14：发布了语义标签
2023.05.04：技术报告在 arxiv 上发布

数据集统计和分析

类别分布：展示了每个类别在 SAMRS 数据库中的像素和实例数量统计
掩码大小分布：展示了不同子集中掩码大小的统计

数据集可视化

分割结果示例：展示了 SAM 在遥感图像上的分割结果示例
生成的掩码可视化：展示了 SAMRS 数据集中三个子集的分割标注示例

数据集使用

生成数据集代码：提供了生成 SAMRS 数据集的代码
预训练和微调代码：提供了使用 SAMRS 进行预训练和在其他数据集上进行微调的代码

数据集比较

与其他高分辨率遥感分割数据集的比较：展示了 SAMRS 与现有高分辨率遥感分割数据集的比较

数据集声明

该项目仅用于研究目的。如有其他问题，请联系 d_wang@whu.edu.cn。

引用

如果发现 SAMRS 有帮助，请考虑引用：

@inproceedings{SAMRS, author = {Wang, Di and Zhang, Jing and Du, Bo and Xu, Minqiang and Liu, Lin and Tao, Dacheng and Zhang, Liangpei}, booktitle = {Advances in Neural Information Processing Systems}, pages = {8815--8827}, title = {SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment Anything Model}, volume = {36}, year = {2023} }

AI搜集汇总

数据集介绍

构建方式

SAMRS数据集的构建基于Segment Anything Model (SAM)和现有的遥感目标检测数据集。通过利用SAM的强大分割能力，结合目标检测数据中的类别和边界框信息，生成像素级语义标签，从而高效地构建大规模遥感分割数据集。具体流程包括从现有数据集中提取检测标注，利用SAM生成分割掩码，并将这些掩码与类别信息结合，形成最终的分割标签。该数据集共包含105,090张图像和1,668,241个实例，规模远超现有的高分辨率遥感分割数据集。

特点

SAMRS数据集的特点在于其规模庞大且类别丰富。它不仅继承了现有遥感目标检测数据集的多样性和广泛性，还通过SAM生成的像素级标注，提供了对象类别、位置和实例信息，适用于语义分割、实例分割和目标检测任务。此外，SAMRS的实例标注和边界框信息使其能够支持多种任务的联合训练，进一步提升了其应用价值。与现有的高分辨率遥感分割数据集相比，SAMRS在数据量和类别多样性上具有显著优势。

使用方法

SAMRS数据集的使用方法主要包括预训练和微调两个阶段。在预训练阶段，可以利用SAMRS的大规模分割数据进行模型初始化，以缓解任务差异和训练数据不足的问题。预训练后的模型可以在典型的遥感分割数据集上进行微调，以进一步提升性能。实验表明，使用SAMRS进行分割预训练能够显著提高模型在有限训练数据下的表现，尤其是在小样本场景中。此外，SAMRS还可以用于语义分割、实例分割和目标检测任务的联合训练，为遥感图像分析提供了强大的数据支持。

背景与挑战

背景概述

SAMRS（Segment Anything Model annotated Remote Sensing Segmentation dataset）数据集是由武汉大学、悉尼大学等机构的研究团队于2023年提出的大规模遥感图像分割数据集。该数据集基于Segment Anything Model（SAM）和现有的遥感目标检测数据集构建，旨在解决遥感图像像素级标注的高成本和低效率问题。SAMRS包含105,090张图像和1,668,241个实例，远超现有高分辨率遥感分割数据集的规模。其核心研究问题是通过SAM模型高效生成像素级标注，推动遥感图像分割任务的发展。该数据集的发布为农业监测、城市规划、环境保护等领域提供了重要的数据支持，显著提升了遥感图像分割模型的预训练和微调效果。

当前挑战

SAMRS数据集在构建和应用过程中面临多重挑战。首先，遥感图像的目标分布稀疏且目标尺寸较小，导致标注效率低下，传统的人工标注方式耗时且成本高昂。其次，SAM模型虽然具备强大的零样本分割能力，但其生成的掩码缺乏类别信息，无法直接用于遥感图像的语义标注。为此，研究团队通过结合现有遥感目标检测数据集的类别和边界框信息，解决了这一难题。此外，数据集的规模虽然远超现有数据集，但与ImageNet等大规模分类数据集相比仍显不足，限制了其在更大规模模型上的应用。最后，如何在有限训练数据的情况下，通过预训练提升模型性能，也是SAMRS面临的重要挑战。

常用场景

经典使用场景

SAMRS数据集在遥感图像分割领域具有广泛的应用，尤其是在大规模遥感图像语义分割、实例分割和目标检测任务中。通过利用Segment Anything Model (SAM)的强大能力，SAMRS能够高效生成像素级标注，极大地提升了遥感图像分割任务的精度和效率。该数据集在农业监测、城市规划、环境监测等领域中，为地表目标的精确识别提供了强有力的支持。

解决学术问题

SAMRS数据集解决了遥感图像分割领域中的两大核心问题：一是遥感图像标注的高成本和低效率问题，通过SAM模型自动生成像素级标注，显著减少了人工标注的时间和成本；二是现有遥感分割数据集规模较小的问题，SAMRS通过整合多个公开的遥感目标检测数据集，生成了包含105,090张图像和1,668,241个实例的大规模分割数据集，远超现有高分辨率遥感分割数据集的规模，为模型预训练和微调提供了丰富的数据支持。

衍生相关工作

SAMRS数据集的推出催生了一系列相关研究工作。例如，基于SAMRS的预训练模型在ISPRS Potsdam和iSAID等经典遥感分割数据集上表现出色，显著提升了分割精度。此外，SAMRS还被用于改进现有的分割模型，如UNet和UperNet，通过预训练和微调策略，进一步提升了模型在遥感图像分割任务中的性能。SAMRS的成功应用也推动了更多基于SAM的遥感图像处理研究，如利用文本提示进行遥感图像分割等创新工作。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

IMDb Datasets

IMDb Datasets包含电影和电视节目的详细信息，包括电影名称、演员、导演、评分、评论等。数据集分为多个文件，如title.basics.tsv.gz、title.ratings.tsv.gz等，每个文件包含不同类型的信息。

www.imdb.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录