routerset

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/sirbastiano94/routerset

下载链接

链接失效反馈

官方服务：

资源简介：

routerset 是一个多标签遥感数据集，由当前 phi2FM 下游资源组装而成。数据集包含 15,512 条记录，每条记录以 .npy 格式存储，并附有标签词汇表和多种摘要文件。数据集涵盖多个子集，包括 fire（1,600 条）、burned_area（6,660 条）、anomaly_detection（36 条）、worldfloods（2,353 条）、lc（63 条）和 roads（4,800 条）。标签基数最小为 0，最大为 5，平均为 0.8083。数据集状态分为 positive（10,514 条）、explicit_negative（2,777 条）和 below_threshold（2,221 条）。最常见的标签包括 cloud（4,159 条）、road_present（2,702 条）、burned_area（2,087 条）、water（1,710 条）和 land（1,448 条）。数据集还包含多种分析图表，如覆盖率分布、标签热图、标签共现等。该数据集适用于图像分类和零样本图像分类任务，特别适合遥感、地球观测和多光谱卫星图像分析。

创建时间：

2026-03-10

原始信息汇总

routerset 数据集概述

数据集基本信息

数据集名称：routerset
许可证：mit
数据规模：10K<n<100K
任务类别：image-classification, zero-shot-image-classification
语言：en
标签：remote-sensing, earth-observation, multispectral, multilabel, satellite-imagery

数据集描述

routerset 是一个从当前 phi2FM 下游来源汇集而成的具体化多标签遥感数据集。

仓库内容

multilabel_dataset/manifest.jsonl：规范记录清单
multilabel_dataset/images/：具体化的 .npy 样本
multilabel_dataset/label_vocab.json：标签词汇表
multilabel_dataset/summary.json：数据集构建摘要
multilabel_dataset/materialization_summary.json：具体化结果
multilabel_dataset/plots/：数据集分析图表

当前快照统计

总记录数：15,512
具体化样本数：15,512 个 .npy 文件
标签基数：最小值 0，最大值 5，平均值 0.8083

包含的数据集及记录数

fire：1,600
burned_area：6,660
anomaly_detection：36
worldfloods：2,353
lc：63
roads：4,800

缺失的数据集

building

状态计数

positive：10,514
explicit_negative：2,777
below_threshold：2,221

最频繁的标签

cloud：4,159
road_present：2,702
burned_area：2,087
water：1,710
land：1,448

分析图表

图表存储在 multilabel_dataset/plots/ 目录中，包括：

coverage_distributions.png
dataset_label_heatmap.png
dataset_split_counts.png
label_cooccurrence.png
label_frequency.png
status_and_cardinality.png
plot_summary.json

技术说明

数组以 .npy 具体化格式存储。
数据集从当前本地的 phi2FM 下游来源构建，然后上传至此 Hugging Face 数据集仓库。

搜集汇总

数据集介绍

构建方式

在遥感影像分析领域，数据集的构建往往依赖于多源异构数据的整合与标准化。routerset数据集通过系统化地汇集当前phi2FM下游数据源，实现了多标签遥感数据的实体化存储。该数据集从fire、burned_area、anomaly_detection、worldfloods、lc、roads六个子集中精选了15,512条记录，每条记录均以.npy格式存储多维光谱影像数据，并配以标准化的标签词汇表与构建摘要，确保了数据的一致性与可追溯性。

特点

routerset数据集展现出多标签遥感数据集的典型特征，其标签基数范围从0到5，平均值为0.8083，反映了真实场景中标签分布的稀疏性。数据集中cloud、road_present、burned_area等高频标签的出现，凸显了其在火灾监测、道路识别等应用场景的针对性。此外，数据集通过状态分类（positive、explicit_negative、below_threshold）与标签共现热力图等分析图表，为研究者提供了直观的数据分布洞察，支持细粒度的模型评估与偏差分析。

使用方法

使用routerset数据集时，研究者可通过manifest.jsonl文件快速索引所有数据记录，并利用预存的.npy文件直接加载多维影像阵列，避免了格式转换的繁琐。数据集适用于图像分类与零样本图像分类任务，尤其适合开发面向多标签遥感场景的机器学习模型。内置的标签词汇表与统计分析图表，可辅助进行标签编码、数据采样策略设计以及模型性能的可视化评估，为遥感智能解译研究提供高效的数据基础。

背景与挑战

背景概述

routerset数据集作为遥感领域的一项创新资源，由phi2FM项目衍生而来，专注于多标签遥感图像分类任务。该数据集整合了火灾监测、洪水检测、道路识别等多个下游应用场景，旨在为地球观测与多光谱图像分析提供统一的基准平台。其构建过程体现了对现有遥感数据源的系统化整合与标准化处理，通过15,512条记录覆盖了多样化的地表特征，为遥感智能解译模型的训练与评估奠定了数据基础。

当前挑战

在遥感图像多标签分类领域，routerset面临的核心挑战在于处理高度不平衡的标签分布与复杂场景下的共现关系，例如云层遮挡与地表特征的同时识别。数据集构建过程中，需克服来自不同源数据的异构性，包括光谱分辨率、空间尺度及标注标准的差异，同时确保负样本与低置信度样本的合理表征，以提升模型在真实世界复杂环境中的泛化能力与鲁棒性。

常用场景

经典使用场景

在遥感影像分析领域，routerset数据集作为多标签分类任务的基准资源，其经典使用场景聚焦于训练和评估深度学习模型对卫星图像中多种地物特征的联合识别能力。该数据集整合了火灾、洪水、道路等多个下游任务来源，通过提供丰富的多光谱图像样本，支持模型学习复杂环境下的语义关联，例如同时检测云层覆盖与道路存在性，从而推动遥感智能解译技术的进步。

实际应用

在实际应用中，routerset数据集为自然灾害监测、城市规划与环境保护提供了关键技术支持。例如，基于其火灾与洪水标注数据，可构建实时灾害预警系统；道路与土地覆盖标签则能辅助交通网络分析与土地利用评估。这些应用不仅提升了遥感数据的业务化处理效率，还为政府部门与环保机构提供了精准的决策依据，推动了遥感技术在社会可持续发展中的落地。

衍生相关工作

围绕routerset数据集，已衍生出多项经典研究工作，包括基于多标签注意力机制的遥感图像分类模型、跨任务迁移学习框架以及零样本遥感识别算法。这些工作充分利用了数据集的多样本与多标签特性，推动了phi2FM等上游模型在下游任务中的适配与优化。此外，该数据集还促进了遥感领域多任务学习范式的创新，为后续大规模地球观测数据集的构建提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集