five

LandDiscover50K|遥感图像数据集|语义分割数据集

收藏
arXiv2024-12-27 更新2024-12-31 收录
遥感图像
语义分割
下载链接:
https://github.com/yecy749/GSNet
下载链接
链接失效反馈
资源简介:
LandDiscover50K是由大连理工大学开发的一个综合性遥感图像语义分割数据集,旨在解决开放词汇遥感图像语义分割(OVRSISS)任务中的数据缺乏问题。该数据集包含51,846张高分辨率遥感图像,涵盖了40个不同的语义类别,数据来源包括多个公开的遥感数据集。LandDiscover50K通过整合多样化的传感器、分辨率和地物类别,增强了模型的鲁棒性和泛化能力。该数据集的应用领域主要集中在遥感图像分析,旨在提升农业产量、减轻自然灾害和管理土地覆盖变化等方面的应用效果。
提供机构:
大连理工大学
创建时间:
2024-12-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
LandDiscover50K数据集的构建基于多个现有的遥感图像语义分割数据集,包括Open Earth Map、LoveDA、Deep Globe Land Cover、SIOR和SOTA等。通过整合这些数据集中的像素级标注图像,LandDiscover50K最终包含了51,846张图像,涵盖了40个不同的语义类别。为确保数据的多样性和广泛性,数据集采用了RGB模态,并对相同类别的标注进行了合并,同时将通用的“背景”标签统一为“未标注”类别,以减少语义偏差带来的过拟合风险。
特点
LandDiscover50K数据集的特点在于其广泛的覆盖范围和多样性。数据集不仅包含了大规模的土地覆盖类型,还涵盖了细粒度的小目标对象,如车辆和桥梁等。这种多样性有助于模型在真实世界遥感任务中应对复杂的语义变化。此外,数据集的图像在空间分布上较为均衡,减少了位置偏差,确保了模型训练的鲁棒性。LandDiscover50K的多样性和规模使其成为开放词汇遥感图像语义分割任务中的理想基准数据集。
使用方法
LandDiscover50K数据集的使用方法主要围绕开放词汇遥感图像语义分割(OVRSISS)任务展开。数据集可用于训练和评估OVRSISS模型,特别是那些能够处理任意语义类别的模型。在使用过程中,模型首先通过双流图像编码器(DSIE)提取通用和专用的特征,随后通过查询引导的特征融合(QGFF)模块整合这些特征,最后通过残差信息保留解码器(RIPD)生成精确的分割掩码。LandDiscover50K的多样性和规模确保了模型在不同语义类别和场景下的泛化能力,使其在遥感图像分析中具有广泛的应用前景。
背景与挑战
背景概述
LandDiscover50K数据集由大连理工大学未来技术学院与人工智能学院的陈阳叶、诸葛云志和张平平等研究人员于2024年提出,旨在解决开放词汇遥感图像语义分割(OVRSISS)领域的数据匮乏问题。该数据集包含51,846张高分辨率遥感图像,涵盖40个多样化的语义类别,为遥感图像分析提供了丰富的标注数据。遥感图像语义分割在农业、自然灾害监测和土地覆盖管理等领域具有广泛应用,而传统方法依赖于预定义的语义类别,难以适应新类别的分割需求。LandDiscover50K的推出填补了这一空白,推动了开放词汇分割技术的发展,并为相关研究提供了重要的基准数据。
当前挑战
LandDiscover50K数据集在构建和应用过程中面临多重挑战。首先,遥感图像的高分辨率和语义模糊性使得数据标注成本高昂,且难以保证标注的一致性。其次,开放词汇分割任务要求模型能够处理任意语义类别的分割,这对模型的泛化能力提出了极高要求。此外,遥感图像的多源性和多样性导致了显著的领域差异,模型在不同传感器、分辨率和地理环境下的表现可能不一致。在数据集构建过程中,如何整合多源数据并确保标注的多样性和准确性也是一大挑战。这些问题的解决需要创新的算法设计和高效的数据处理流程,以提升模型的鲁棒性和泛化能力。
常用场景
经典使用场景
LandDiscover50K数据集在遥感图像语义分割领域具有广泛的应用,尤其是在开放词汇语义分割(OVRSISS)任务中。该数据集通过提供涵盖40个不同语义类别的51,846张高分辨率遥感图像,支持模型在无需预定义类别的情况下进行任意语义类别的分割。这一特性使得LandDiscover50K成为研究开放词汇语义分割的理想数据集,特别是在需要快速适应新类别或处理复杂场景时,如自然灾害监测、土地利用变化分析等。
实际应用
LandDiscover50K数据集在实际应用中具有广泛的价值,特别是在农业、自然灾害管理和土地利用规划等领域。例如,在农业中,该数据集可以用于监测作物生长状况,优化农业产量;在自然灾害管理中,可以快速识别受灾区域,辅助应急响应;在土地利用规划中,能够精确分析土地覆盖变化,支持可持续发展决策。其开放词汇特性使得模型能够灵活适应不同应用场景,显著提高了遥感图像分析的效率和准确性。
衍生相关工作
LandDiscover50K数据集的发布推动了遥感图像语义分割领域的多项研究工作。基于该数据集,研究者提出了多种开放词汇语义分割模型,如GSNet,该模型通过整合遥感领域的先验知识和通用视觉语言模型的能力,显著提升了分割性能。此外,LandDiscover50K还激发了其他相关研究,如Few-Shot和Semi-Supervised遥感图像分割方法的发展,进一步拓展了遥感图像分析的应用范围。这些衍生工作不仅验证了LandDiscover50K的学术价值,也为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Amazon Reviews 2023

该数据集包含用户评论,如评分、评论文本、有用投票等,以及商品元数据,如产品描述、定价、图片等。数据集比以前的版本大245.2%,包含571.54M条评论,并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录