SyntheticGenV5

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/buddhi19/SyntheticGenV5

下载链接

链接失效反馈

官方服务：

资源简介：

SyntheticGenV5 是一个用于城市-乡村领域感知学习的合成遥感语义分割数据集，基于 LoveDA 数据集构建而成。该数据集包含城市和乡村两个领域，专门设计用于遥感语义分割任务，适用于合成数据增强和领域泛化研究。数据集结构保持原始文件夹布局，通过 Train/metadata.csv 文件连接每张图像与其语义分割掩码和 RGB 可视化掩码。数据集规模在 1,000 到 10,000 个样本之间，包含训练集分割。每个样本的元数据包括图像文件名、掩码文件名、RGB掩码文件名、所属领域（城市或乡村）以及来源数据集信息。数据集还提供了 RGB 掩码以便于可视化检查。

创建时间：

2026-04-07

原始信息汇总

SyntheticGenV5 数据集概述

数据集基本信息

数据集名称: SyntheticGenV5
许可证: MIT
主要任务类别: 图像分割
具体任务: 语义分割
标签: 遥感、语义分割、合成数据、领域自适应、图像
数据规模: 1K<n<10K
配置名称: default

数据集简介

SyntheticGenV5 是一个用于城市-乡村领域感知学习的合成遥感语义分割数据集。该数据集基于论文 https://huggingface.co/papers/2602.04749 构建。它保持了原始文件夹布局，并使用 Train/metadata.csv 文件来关联每张图像与其语义分割掩码和 RGB 掩码。

数据集特点与用途

包含两个领域: 城市和乡村
设计用途: 专为遥感语义分割设计
应用场景: 适用于合成数据增强和领域泛化研究
辅助功能: 包含 RGB 掩码可视化，便于检查

数据结构

数据集遵循以下目录结构：

Train/ ├── metadata.csv ├── Urban/ │ ├── image_png/ │ ├── mask_png/ │ └── mask_rgb_png/ └── Rural/ ├── image_png/ ├── mask_png/ └── mask_rgb_png/

元数据字段

Train/metadata.csv 文件中的每一行包含以下字段：

image_file_name
mask_file_name
mask_rgb_file_name
domain
source_dataset

数据加载方式

python from datasets import load_dataset ds = load_dataset("buddhi19/SyntheticGenV5") print(ds["train"][0])

数据来源

该数据集衍生或生成自 LoveDA 数据集： LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation

引用信息

LoveDA 数据集引用

bibtex @misc{wang2022lovedaremotesensinglandcover, title={LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation}, author={Junjue Wang and Zhuo Zheng and Ailong Ma and Xiaoyan Lu and Yanfei Zhong}, year={2022}, eprint={2110.08733}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2110.08733}, }

SyntheticGenV5 及相关论文引用

bibtex @misc{wijenayake2026mitigating, title={Mitigating Long-Tail Bias via Prompt-Controlled Diffusion Augmentation}, author={Buddhi Wijenayake and Nichula Wasalathilake and Roshan Godaliyadda and Vijitha Herath and Parakrama Ekanayake and Vishal M. Patel}, year={2026}, eprint={2602.04749}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.04749} }

重要说明

原始目录布局被保留
Train/metadata.csv 用于在 Hugging Face 上更清晰地加载数据
包含 RGB 掩码主要用于可视化
当前版本仅包含 train 分割

致谢

感谢 LoveDA 作者提供的原始基准数据集，该数据集启发并支持了本数据集的创建。

搜集汇总

数据集介绍

构建方式

在遥感影像语义分割领域，SyntheticGenV5数据集通过合成数据生成技术构建，旨在支持城乡域感知学习。该数据集基于LoveDA遥感土地覆盖数据集，采用提示控制扩散增强方法生成合成样本，以缓解长尾分布偏差。数据组织保留了原始目录结构，通过Train/metadata.csv文件关联每幅影像及其对应的语义分割掩膜与RGB可视化掩膜，涵盖城市与乡村两个地理域，为域适应与域泛化研究提供了结构化基础。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，调用load_dataset函数并指定数据集路径即可访问训练分割。数据加载后，metadata.csv中的字段可指引图像文件、掩膜文件及其所属域和源数据集的路径。研究人员可利用该数据集训练或评估语义分割模型，特别关注模型在城乡域之间的迁移与泛化能力，亦可通过其合成特性进行数据扩充实验，以提升模型在真实遥感场景下的鲁棒性。

背景与挑战

背景概述

遥感图像语义分割是地理信息科学与计算机视觉交叉领域的关键任务，旨在对地表覆盖物进行像素级分类，为城市规划、环境监测等应用提供支持。SyntheticGenV5数据集于2026年由相关研究团队构建，其核心研究问题聚焦于城市与乡村场景间的域适应学习。该数据集基于LoveDA基准数据集衍生，通过合成数据生成技术，专门设计用于缓解遥感影像中因地理分布差异导致的模型泛化瓶颈，推动了域感知与长尾分布学习在遥感分析中的前沿探索。

当前挑战

在遥感语义分割领域，模型常面临域偏移挑战，即训练数据与测试数据在地理特征、光照条件及物候分布上存在显著差异，导致模型泛化性能下降。SyntheticGenV5针对此问题，旨在通过合成数据增强来弥合城市与乡村域间的语义鸿沟。数据集构建过程中，需克服合成数据与真实影像间的分布对齐难题，确保生成样本在纹理、结构及类别平衡上保持真实性与多样性，同时需维持原始LoveDA数据集的标注一致性与布局完整性，以支持可靠的域适应评估。

常用场景

经典使用场景

在遥感图像语义分割领域，SyntheticGenV5数据集为城市与乡村场景的域感知学习提供了经典范例。该数据集通过合成数据生成技术，构建了包含城市和乡村两个独立域的遥感图像及其语义分割掩码，专门用于训练和评估模型在不同地理环境下的泛化能力。研究人员通常利用该数据集进行跨域语义分割实验，探究模型从合成数据到真实场景的迁移性能，尤其在处理城乡景观差异导致的域偏移问题上展现出重要价值。

解决学术问题

该数据集主要针对遥感语义分割中的域适应与域泛化问题提供了系统化解决方案。通过构建具有明确域标签的合成数据，它有效缓解了传统遥感数据集因地理分布不均导致的长尾分布偏差，使得研究者能够深入探究模型在城乡不同场景下的性能衰减机制。其意义在于为域自适应方法提供了可控的实验环境，推动了合成数据增强技术在遥感领域的理论发展，并为解决实际应用中因环境异质性带来的模型泛化挑战奠定了数据基础。

实际应用

在实际工程应用中，SyntheticGenV5数据集为遥感图像智能解译系统提供了重要的数据支撑。城市规划部门可利用该数据集训练的模型，自动识别城乡区域的建筑、道路、植被等地物覆盖类型，辅助土地利用监测和基础设施规划。环境保护机构则能借助其域适应能力，在不同地理环境下持续跟踪生态环境变化。该数据集通过合成数据降低了真实标注数据的获取成本，使得深度学习模型能够更快速地被部署到多样化的遥感应用场景中。

数据集最近研究