jonathan-roberts1/Million-AID
收藏Hugging Face2023-03-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jonathan-roberts1/Million-AID
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: image
dtype: image
- name: label_1
dtype:
class_label:
names:
'0': unutilized land
'1': commercial land
'2': public service land
'3': transportation land
'4': industrial land
'5': water area
'6': residential land
'7': agriculture land
- name: label_2
dtype:
class_label:
names:
'0': dam
'1': religious land
'2': rock land
'3': sparse shrub land
'4': arable land
'5': factory area
'6': detached house
'7': desert
'8': lake
'9': power station
'10': beach
'11': ice land
'12': bare land
'13': island
'14': woodland
'15': mobile home park
'16': railway area
'17': river
'18': grassland
'19': apartment
'20': special land
'21': port area
'22': commercial area
'23': highway area
'24': mining area
'25': sports land
'26': airport area
'27': leisure land
- name: label_3
dtype:
class_label:
names:
'0': dam
'1': parking lot
'2': greenhouse
'3': pier
'4': bridge
'5': mine
'6': rock land
'7': baseball field
'8': apron
'9': tennis court
'10': sparse shrub land
'11': works
'12': oil field
'13': meadow
'14': ground track field
'15': detached house
'16': golf course
'17': forest
'18': desert
'19': lake
'20': beach
'21': paddy field
'22': ice land
'23': bare land
'24': storage tank
'25': basketball court
'26': island
'27': substation
'28': mobile home park
'29': cemetery
'30': quarry
'31': solar power plant
'32': helipad
'33': roundabout
'34': runway
'35': wastewater plant
'36': river
'37': apartment
'38': dry field
'39': intersection
'40': swimming pool
'41': commercial area
'42': church
'43': road
'44': orchard
'45': terraced field
'46': stadium
'47': train station
'48': railway
'49': viaduct
'50': wind turbine
splits:
- name: train
num_bytes: 871962498
num_examples: 10000
download_size: 871644115
dataset_size: 871962498
license: other
task_categories:
- image-classification
- zero-shot-image-classification
---
# Dataset Card for "Million-AID"
## Dataset Description
- **Paper** [On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid](https://ieeexplore.ieee.org/iel7/4609443/9314330/09393553.pdf)
- **Split** Train
## Split Information
This HuggingFace dataset repository contains just the Train split.
### Licensing Information
[CC BY-NC-ND 4.0](https://competitions.codalab.org/competitions/35974#learn_the_details-terms-and-conditions)
## Citation Information
[On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid](https://ieeexplore.ieee.org/iel7/4609443/9314330/09393553.pdf)
```
@article{long2021creating,
title = {On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid},
author = {Long, Yang and Xia, Gui-Song and Li, Shengyang and Yang, Wen and Yang, Michael Ying and Zhu, Xiao Xiang and Zhang, Liangpei and Li, Deren},
year = 2021,
journal = {IEEE Journal of selected topics in applied earth observations and remote sensing},
publisher = {IEEE},
volume = 14,
pages = {4205--4230}
}
```
dataset_info:
特征:
- 名称:image(图像),数据类型为图像格式
- 名称:label_1,数据类型为分类标签,其类别名称如下:
'0': 未利用土地(unutilized land)
'1': 商业用地(commercial land)
'2': 公共服务用地(public service land)
'3': 交通用地(transportation land)
'4': 工业用地(industrial land)
'5': 水域(water area)
'6': 居住用地(residential land)
'7': 农业用地(agriculture land)
- 名称:label_2,数据类型为分类标签,其类别名称如下:
'0': 水坝(dam)
'1': 宗教用地(religious land)
'2': 岩石裸地(rock land)
'3': 稀疏灌丛地(sparse shrub land)
'4': 耕地(arable land)
'5': 厂区(factory area)
'6': 独立住宅(detached house)
'7': 荒漠(desert)
'8': 湖泊(lake)
'9': 电站(power station)
'10': 海滩(beach)
'11': 冰原(ice land)
'12': 裸地(bare land)
'13': 岛屿(island)
'14': 林地(woodland)
'15': 移动住宅园区(mobile home park)
'16': 铁路区域(railway area)
'17': 河流(river)
'18': 草地(grassland)
'19': 公寓(apartment)
'20': 特殊用地(special land)
'21': 港区(port area)
'22': 商业区域(commercial area)
'23': 公路区域(highway area)
'24': 矿区(mining area)
'25': 体育用地(sports land)
'26': 机场区域(airport area)
'27': 休闲用地(leisure land)
- 名称:label_3,数据类型为分类标签,其类别名称如下:
'0': 水坝(dam)
'1': 停车场(parking lot)
'2': 温室(greenhouse)
'3': 码头(pier)
'4': 桥梁(bridge)
'5': 矿山(mine)
'6': 岩石裸地(rock land)
'7': 棒球场(baseball field)
'8': 停机坪(apron)
'9': 网球场(tennis court)
'10': 稀疏灌丛地(sparse shrub land)
'11': 工程设施(works)
'12': 油田(oil field)
'13': 草甸(meadow)
'14': 田径场(ground track field)
'15': 独立住宅(detached house)
'16': 高尔夫球场(golf course)
'17': 森林(forest)
'18': 荒漠(desert)
'19': 湖泊(lake)
'20': 海滩(beach)
'21': 水田(paddy field)
'22': 冰原(ice land)
'23': 裸地(bare land)
'24': 储油罐区(storage tank)
'25': 篮球场(basketball court)
'26': 岛屿(island)
'27': 变电站(substation)
'28': 移动住宅园区(mobile home park)
'29': 墓地(cemetery)
'30': 采石场(quarry)
'31': 太阳能电站(solar power plant)
'32': 直升机坪(helipad)
'33': 环岛(roundabout)
'34': 跑道(runway)
'35': 污水处理厂(wastewater plant)
'36': 河流(river)
'37': 公寓(apartment)
'38': 旱地(dry field)
'39': 交叉口(intersection)
'40': 游泳池(swimming pool)
'41': 商业区域(commercial area)
'42': 教堂(church)
'43': 道路(road)
'44': 果园(orchard)
'45': 梯田(terraced field)
'46': 体育场(stadium)
'47': 火车站(train station)
'48': 铁路(railway)
'49': 高架桥(viaduct)
'50': 风力发电机(wind turbine)
划分集:
- 名称:训练集(train),字节数:871962498,样本数量:10000
下载大小:871644115 字节
数据集总大小:871962498 字节
许可证:其他(other)
任务类别:
- 图像分类(image-classification)
- 零样本图像分类(zero-shot-image-classification)
# "Million-AID"数据集卡片
## 数据集描述
- **论文**:《面向航空图像解译的基准数据集构建:综述、指南与Million-AID数据集》[On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid](https://ieeexplore.ieee.org/iel7/4609443/9314330/09393553.pdf)
- **划分集**:训练集(Train)
## 划分集说明
本Hugging Face数据集仓库仅包含训练划分集。
### 许可信息
[知识共享署名-非商业性使用-禁止演绎4.0协议(CC BY-NC-ND 4.0)](https://competitions.codalab.org/competitions/35974#learn_the_details-terms-and-conditions)
## 引用信息
《面向航空图像解译的基准数据集构建:综述、指南与Million-AID数据集》[On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid](https://ieeexplore.ieee.org/iel7/4609443/9314330/09393553.pdf)
@article{long2021creating,
title = {On creating benchmark dataset for aerial image interpretation: Reviews, guidances, and million-aid},
author = {Long, Yang and Xia, Gui-Song and Li, Shengyang and Yang, Wen and Yang, Michael Ying and Zhu, Xiao Xiang and Zhang, Liangpei and Li, Deren},
year = 2021,
journal = {IEEE Journal of selected topics in applied earth observations and remote sensing},
publisher = {IEEE},
volume = 14,
pages = {4205--4230}
}
提供机构:
jonathan-roberts1
原始信息汇总
数据集概述
数据集名称
Million-AID
数据集特征
- image: 图像数据
- label_1: 类别标签,包括:
- 0: unutilized land
- 1: commercial land
- 2: public service land
- 3: transportation land
- 4: industrial land
- 5: water area
- 6: residential land
- 7: agriculture land
- label_2: 类别标签,包括:
- 0: dam
- 1: religious land
- 2: rock land
- 3: sparse shrub land
- 4: arable land
- 5: factory area
- 6: detached house
- 7: desert
- 8: lake
- 9: power station
- 10: beach
- 11: ice land
- 12: bare land
- 13: island
- 14: woodland
- 15: mobile home park
- 16: railway area
- 17: river
- 18: grassland
- 19: apartment
- 20: special land
- 21: port area
- 22: commercial area
- 23: highway area
- 24: mining area
- 25: sports land
- 26: airport area
- 27: leisure land
- label_3: 类别标签,包括:
- 0: dam
- 1: parking lot
- 2: greenhouse
- 3: pier
- 4: bridge
- 5: mine
- 6: rock land
- 7: baseball field
- 8: apron
- 9: tennis court
- 10: sparse shrub land
- 11: works
- 12: oil field
- 13: meadow
- 14: ground track field
- 15: detached house
- 16: golf course
- 17: forest
- 18: desert
- 19: lake
- 20: beach
- 21: paddy field
- 22: ice land
- 23: bare land
- 24: storage tank
- 25: basketball court
- 26: island
- 27: substation
- 28: mobile home park
- 29: cemetery
- 30: quarry
- 31: solar power plant
- 32: helipad
- 33: roundabout
- 34: runway
- 35: wastewater plant
- 36: river
- 37: apartment
- 38: dry field
- 39: intersection
- 40: swimming pool
- 41: commercial area
- 42: church
- 43: road
- 44: orchard
- 45: terraced field
- 46: stadium
- 47: train station
- 48: railway
- 49: viaduct
- 50: wind turbine
数据集分割
- train: 训练集,包含10000个样本,总大小为871962498字节。
数据集大小
- 下载大小: 871644115字节
- 数据集大小: 871962498字节
许可证
other
任务类别
- image-classification
- zero-shot-image-classification
搜集汇总
数据集介绍

构建方式
在遥感影像分析领域,构建高质量标注数据集是推动算法发展的基石。Million-AID数据集通过系统性地收集全球多源高分辨率遥感影像,并采用严格的人工标注流程构建而成。其标注体系涵盖三个层次,从宏观土地利用类型到细粒度地物类别,确保了标注的准确性与一致性。数据来源包括公开的卫星与航空影像,经过几何校正与辐射归一化处理,形成了规模达万张样本的训练集,为遥感影像解译提供了坚实的基准。
特点
该数据集的核心特征在于其多层次、细粒度的分类体系,共包含超过50个精细地物类别,全面覆盖了自然与人工景观。影像具有较高的空间分辨率与全球多样性,能够有效反映不同地理环境下的地表特征。数据以统一的图像格式存储,并附带三层分类标签,支持从土地利用到具体地物的多尺度分析。这种结构设计不仅丰富了遥感任务的语义层次,也为模型的可解释性与泛化能力评估提供了便利。
使用方法
在遥感影像分类任务中,该数据集可直接用于训练监督学习模型,尤其适用于深度神经网络。研究者可通过加载标准化的图像与对应标签,进行端到端的分类或特征提取。数据集支持零样本图像分类等前沿任务,其多层次标签便于开展迁移学习与分层预测研究。使用前需遵循CC BY-NC-ND 4.0许可协议,并引用相关论文,以确保学术使用的规范性与可追溯性。
背景与挑战
背景概述
遥感影像解译作为地球观测与人工智能交叉领域的关键技术,其发展高度依赖于大规模、高质量标注数据集的支持。Million-AID数据集由武汉大学、慕尼黑工业大学等机构的杨龙、夏桂松、李德仁等学者于2021年共同创建,旨在构建一个百万级规模的航空影像基准数据集,以推动遥感场景分类与地物识别研究的深入。该数据集围绕航空影像多层次语义解译这一核心问题,通过精细的三级标签体系,系统刻画了从宏观土地利用类型到微观特定地物目标的丰富语义信息,为遥感影像智能解译模型提供了前所未有的训练资源,显著提升了该领域模型泛化能力与实用性。
当前挑战
Million-AID数据集致力于解决遥感影像场景分类与目标识别中因类内差异大、类间相似度高以及尺度多样性带来的挑战。其构建过程面临多重困难:首先,海量航空影像的采集与筛选需兼顾全球地理分布的多样性与影像质量的统一性;其次,设计兼具逻辑性与完备性的多层次分类体系,并确保数十万样本在三级标签上标注的一致性与准确性,是一项极其繁复且易出错的工作;最后,数据集的发布还需在推动学术进步与遵守数据版权及隐私法规之间取得平衡,这些因素共同构成了数据集构建与广泛应用中的核心挑战。
常用场景
经典使用场景
在遥感影像分析领域,Million-AID数据集以其百万级规模的标注样本,为土地覆盖与土地利用分类任务提供了坚实的基准。该数据集通过三个层次的精细标注体系,涵盖了从宏观土地类型到具体地物类别的广泛范畴,使得研究人员能够构建和评估复杂的深度神经网络模型,特别是在多标签分类和细粒度识别任务中展现出卓越的适用性。其大规模和高多样性的特点,有效支撑了模型在复杂地理环境下的泛化能力研究。
实际应用
在实际应用中,Million-AID数据集为城市规划、国土资源监测和灾害评估提供了关键数据支持。基于该数据集训练的模型能够自动化识别城市功能区、农业用地、水体及基础设施分布,辅助政府部门进行土地资源管理和可持续发展规划。在环境监测领域,它可用于追踪植被变化、水体污染及城市扩张动态,为生态保护和灾害预警提供实时、精准的决策依据。
衍生相关工作
围绕Million-AID数据集,学术界衍生了一系列经典研究工作,主要集中在多尺度特征融合、注意力机制优化及半监督学习等方向。例如,部分研究利用其层次标签结构开发了层级分类网络,以提升细粒度地物识别性能;另有工作结合生成对抗网络进行数据增强,以缓解类别不平衡问题。这些成果不仅推动了遥感影像解译技术的进步,也为后续大规模地理空间人工智能模型的构建奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



