EmbeddingStudio/merged_remote_landscapes_v1
收藏Hugging Face2023-12-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/merged_remote_landscapes_v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Merged Remote Landscapes v1.0.0,主要用于图像分类任务,但实际上用于度量学习任务。数据集合并了torchgeo/ucmerced和NWPU-RESISC45两个数据集,并进行了去重和类别映射处理。数据集包含训练集和测试集,分别有26872和6719个样本。数据集的类别包括农业、飞机、机场、海滩、桥梁、建筑物等。
该数据集名为Merged Remote Landscapes v1.0.0,主要用于图像分类任务,但实际上用于度量学习任务。数据集合并了torchgeo/ucmerced和NWPU-RESISC45两个数据集,并进行了去重和类别映射处理。数据集包含训练集和测试集,分别有26872和6719个样本。数据集的类别包括农业、飞机、机场、海滩、桥梁、建筑物等。
提供机构:
EmbeddingStudio
原始信息汇总
数据集卡片 - Merged Remote Landscapes v1.0.0
数据集概述
特征
- image: 图像数据
- category: 字符串类型,表示图像类别
- img_id: 字符串类型,表示图像ID
数据分割
- train: 训练集,包含26872个样本,大小为687610836.528字节
- test: 测试集,包含6719个样本,大小为178694171.287字节
数据大小
- 下载大小: 843239857字节
- 数据集大小: 866305007.815字节
配置
- default: 默认配置
- 训练集路径:
data/train-* - 测试集路径:
data/test-*
- 训练集路径:
任务类别
- 图像分类
标签
- landscapes
- geo
- remote photos
- metric learning
美观名称
- Merged Remote Landscapes v1.0.0
大小类别
- 10K<n<100K
类别
数据集包含以下类别:
- agricultural
- airplane
- airport
- baseball diamond
- basketball court
- beach
- bridge
- buildings
- chaparral
- church
- circular farmland
- cloud
- commercial area
- desert
- forest
- freeway
- golf course
- ground track field
- harbor
- industrial area
- intersection
- island
- lake
- meadow
- mountain
- overpass
- palace
- parking lot
- railway
- railway station
- rectangular farmland
- residential
- river
- roundabout
- runway
- sea ice
- ship
- snowberg
- stadium
- storage tanks
- tennis court
- terrace
- thermal power station
- wetland
警告: 同义和模糊类别已合并(参见“合并方法”)。
合并方法
合并方法包括:
- 移除重复项。
- 使用简单映射解决同义和模糊类别。
python CATEGORIES_MAPPING = { "dense residential": "residential", "medium residential": "residential", "mobile home park": "residential", "sparse residential": "residential", "storage tank": "storage tanks", "storage tanks": "storage tanks", }
搜集汇总
数据集介绍

构建方式
在遥感影像分析领域,数据集的整合与优化对于提升模型泛化能力至关重要。EmbeddingStudio/merged_remote_landscapes_v1数据集通过系统化合并两个权威遥感数据集——torchgeo/ucmerced与NWPU-RESISC45构建而成。构建过程中,首先移除了重复样本,确保数据唯一性;随后,针对原始数据中存在的同义或模糊类别,采用预定义的类别映射表进行统一归并,例如将“dense residential”、“medium residential”等合并为“residential”类别。这一方法不仅增强了数据集的内部一致性,也为后续的度量学习任务奠定了清晰的结构基础。
使用方法
利用该数据集进行实验时,用户可通过HuggingFace的datasets库直接加载,简化了数据获取流程。在EmbeddingStudio框架的背景下,数据集主要用于模拟点击流数据,以支持嵌入模型的迭代优化。研究人员可基于图像嵌入表示,构建度量学习模型,评估其在场景相似性检索中的效果。此外,清晰的类别划分与标准化标注便于开展跨域迁移学习或零样本学习研究。通过公开数据与实验代码,该资源旨在促进遥感领域可复现研究的发展,推动嵌入学习方法的创新应用。
背景与挑战
背景概述
遥感影像分析作为地理信息科学的核心分支,其发展深刻依赖于高质量标注数据集的支持。EmbeddingStudio/merged_remote_landscapes_v1数据集由EmbeddingStudio团队于2023年构建,旨在为度量学习任务提供标准化的遥感地物分类基准。该数据集整合了torchgeo/ucmerced与NWPU-RESISC45两大经典遥感数据集,涵盖农业用地、机场、森林、建筑群等45类典型地物景观,共计33,591张图像。其创建初衷源于开发EmbeddingStudio开源框架时对合成点击流数据的需求,通过融合多源数据以构建透明、易用的实验平台,为嵌入模型优化与向量数据库检索提供基础验证环境,推动了遥感影像在度量学习与信息检索领域的交叉应用。
当前挑战
该数据集致力于解决遥感影像中地物精细分类与相似性度量问题,其核心挑战在于遥感影像中类间相似性高(如不同农田类型)与类内差异性大(如建筑群形态多变)导致的特征混淆。构建过程中,团队面临多源数据集融合的复杂性:需消除原始数据间的重复样本,并通过人工定义的映射规则(如将‘dense residential’与‘sparse residential’统一为‘residential’)处理同义或歧义类别标签,这一过程依赖主观判断,可能引入标注噪声。此外,数据集虽标注为分类任务,但实际服务于度量学习,需额外设计点击流模拟机制,增加了任务适配与评估的复杂度。
常用场景
经典使用场景
在遥感图像分析领域,Merged Remote Landscapes v1数据集为度量学习任务提供了标准化的实验平台。该数据集整合了UC Merced和NWPU-RESISC45两大经典遥感图像资源,涵盖农业用地、机场、森林、建筑群等43类地理景观类别,通过消除重复样本和统一语义映射,构建了结构清晰的图像特征空间。研究者通常利用该数据集训练深度神经网络,学习具有判别性的图像嵌入表示,进而评估模型在跨类别相似性度量方面的性能,为遥感图像的细粒度分类与检索奠定基础。
解决学术问题
该数据集有效解决了遥感图像分析中样本异构性和类别模糊性带来的学术挑战。通过合并多源数据集并规范化类别体系,它缓解了传统遥感数据因采集标准不一导致的数据分布偏差问题,为度量学习算法提供了稳定的评估基准。其意义在于推动了嵌入模型在缺乏真实用户交互数据情况下的可复现研究,使学者能够系统探究特征表示学习、领域自适应及零样本检索等核心问题,促进了遥感智能解译方法从理论到实践的跨越。
实际应用
在实际应用层面,该数据集支撑的地理空间智能技术已渗透至环境监测、城市规划与灾害评估等多个领域。基于其训练的嵌入模型能够高效识别卫星影像中的地物类型,辅助自动化土地覆盖制图;在应急响应中,快速检索特定景观(如洪水淹没区或森林火点)的相似图像,提升决策效率。此外,该数据集为EmbeddingStudio等开源框架提供了初期验证数据,推动了面向遥感图像的智能搜索引擎的开发与优化。
数据集最近研究
最新研究方向
在遥感图像分析领域,Merged Remote Landscapes v1数据集正推动着多源数据融合与细粒度分类的前沿探索。该数据集整合了UC Merced和NWPU-RESISC45两大经典遥感资源,通过类别映射与去重优化,构建了涵盖43类地物场景的标准化基准。当前研究热点聚焦于跨域迁移学习与自监督表征学习,旨在解决遥感影像中类内差异大、类间相似度高的固有挑战。随着地理空间人工智能的兴起,该数据集为遥感图像检索、变化检测等任务提供了高质量的评估平台,尤其在嵌入模型优化与向量数据库构建方面展现出重要价值,助力于构建更智能的地理信息检索系统。
以上内容由遇见数据集搜集并总结生成



