PoTATO

Name: PoTATO
Creator: 乔治亚理工欧洲分校 - IRL2958 GT-CNRS, 梅斯, 法国
Published: 2025-09-29 20:57:20
License: 暂无描述

arXiv2025-09-29 更新2025-10-01 收录

下载链接：

https://github.com/luisfelipewb/EvalPolFusion

下载链接

链接失效反馈

官方服务：

资源简介：

PoTATO数据集是一个公开的极化图像数据集，包含内陆水道中漂浮塑料瓶的图像。数据集包含1500张图像，分为训练集（1000张）、验证集（200张）和测试集（300张）。PoTATO数据集旨在用于评估极化融合技术在增强水环境语义分割方面的潜力。

The PoTATO dataset is a publicly available polarimetric image dataset containing images of floating plastic bottles in inland waterways. The dataset consists of 1500 images, which are split into a training set (1000 images), a validation set (200 images), and a test set (300 images). The PoTATO dataset is designed to evaluate the potential of polarimetric fusion techniques for enhancing semantic segmentation of water environments.

提供机构：

乔治亚理工欧洲分校 - IRL2958 GT-CNRS, 梅斯, 法国

创建时间：

2025-09-29

原始信息汇总

数据集概述

基本信息

数据集名称：Evaluation of Polarimetric Fusion for Semantic Segmentation in Aquatic Environments
核心用途：评估偏振融合在水下环境语义分割中的效果
关联论文："Evaluation of Polarimetric Fusion for Semantic Segmentation in Aquatic Environments"

数据集特性

基础数据集：PoTATO (Polarimetric Traces of Afloat Trash Objects)
数据版本：语义分割重构版本(PoTATO-Segmentation)
应用场景：水生环境语义分割
模态支持：RGB、DIF、POL等多模态输入

技术实现

基准模型

框架支持：PyTorch
模型架构：UNet
训练方式：支持单模态独立训练
推理功能：支持单模态独立推理

融合模型

基础架构：SegFormer
预训练模型：mit_b2.pth、mit_b3.pth、mit_b4.pth
融合模态：支持RGBAD等多模态融合
分布式训练：支持多GPU并行训练

数据准备

下载方式：通过wget命令下载potato_seg.tar.gz压缩包
存储路径：data目录
提取命令：tar -xzf potato_seg.tar.gz -C data

代码依赖

环境配置：Python虚拟环境
依赖安装：requirements.txt
模块安装：bottleseg基准模块
路径配置：fusion模型Python路径

使用方式

基准训练

bash python train.py --device "cuda:0" --run_name "test" --model_type "unet" --modality "dif" --epochs 30 --bs 4

融合训练

bash torchrun --nproc_per_node=2 tools/train_mm.py ../runs/dummyrun/preds/RGBAD --cfg configs/potatoMultiModalityRGBAD.yaml

引用说明

引用格式：待补充(BibTeX格式)
使用要求：使用基准和融合基准时需要引用

代码致谢

基于以下开源项目构建：

DELIVER
MMSFormer
StitchFusion
PoTATO数据集

搜集汇总

数据集介绍

构建方式

在水环境感知研究领域，PoTATO数据集通过微网格偏振传感器同步采集四个偏振方向的原始光强数据（I₀、I₄₅、I₉₀、I₁₃₅），基于斯托克斯向量计算衍生出线性偏振度、线性偏振角等物理量。原始边界框标注通过Segment Anything模型转化为像素级分割掩码，并经过人工校验确保水面反射区域的精确区分。为优化小目标检测性能，数据集对图像进行感兴趣区域裁剪，最终形成1224×512分辨率的1500张图像，按1000/200/300的比例划分为训练集、验证集与测试集。

特点

该数据集独特之处在于同步提供标准RGB图像、抑制水面反光的漫反射图像以及编码偏振信息的伪彩色图像，形成多模态偏振视觉数据体系。数据采集聚焦于内陆水域漂浮塑料瓶场景，涵盖不同光照条件下水面反射的复杂光学特性。小目标占比显著的特点促使研究者关注尺度不平衡问题，而偏振信息与颜色信息的物理关联性为多模态融合算法提供了天然实验平台。数据样本呈现的水面光学干扰模式为研究反射抑制算法创造了理想条件。

使用方法

研究者可通过组合不同模态图像构建输入通道，如RGB单独输入或与DoLP、AoLP等偏振信息的多通道融合。实验设计需保持偏振信息的物理一致性，仅采用水平翻转作为数据增强手段。模型训练应关注小目标特性，避免下采样操作导致细节丢失。评估体系需兼顾分割精度与边界对齐质量，通过平均交并比和轮廓误差等指标全面衡量算法性能。该数据集特别适合用于研究多模态融合网络在复杂光学环境下的泛化能力与计算效率的平衡关系。

背景与挑战

背景概述

偏振成像技术在计算机视觉领域的兴起为解决水体环境中的感知难题提供了新途径。PoTATO数据集由佐治亚理工学院欧洲分校的研究团队于2024年创建，专门针对内陆水域漂浮塑料瓶的语义分割任务。该数据集通过微网格偏振传感器同步采集色彩与偏振数据，有效规避了多传感器系统的对齐问题。其核心研究在于探索线性偏振度（DoLP）与线性偏振角（AoLP）等偏振特征如何增强水体场景下的目标识别能力，特别是在抑制水面眩光、提升低对比度物体可见性方面展现出独特价值，为自动驾驶系统在水域环境中的可靠感知奠定了数据基础。

当前挑战

该数据集致力于解决水域场景下语义分割的核心难题：动态光照条件与水面镜面反射导致的物体边界模糊问题。构建过程中面临多重挑战：原始数据仅包含边界框标注，需通过Segment Anything模型生成像素级掩码并人工修正；远距离目标在图像中仅占少量像素，存在显著尺度不平衡现象；偏振特征与背景材质相似时易引发误检，且缺乏ImageNet级预训练数据迫使模型需从零学习偏振特征。这些因素共同制约了模型在弱偏振区域的性能表现，并导致训练收敛速度缓慢。

常用场景

经典使用场景

在水域环境感知研究中，PoTATO数据集为偏振成像技术在水面漂浮物语义分割领域的应用提供了标准化的评估基准。该数据集通过同步采集偏振信息和色彩数据，有效解决了水面强反射和动态光照条件下物体边界模糊的难题。研究人员利用其提供的RGB、DIF和POL三种图像模态，能够系统评估不同融合算法在抑制水面眩光、增强低对比度目标可见性方面的性能表现。

实际应用

在内陆水道环境监测领域，PoTATO数据集支撑的技术已应用于漂浮垃圾自动检测系统。通过偏振相机捕捉的偏振特征，系统能够在强烈日照条件下准确识别水面塑料瓶等污染物，为水域清洁机器人提供可靠的感知能力。该技术还可扩展至港口监控、水上救援等场景，通过抑制水面镜面反射提升目标检测的稳定性，为水上自主系统的环境感知模块提供了实用的解决方案。

衍生相关工作

基于PoTATO数据集的研究催生了多项偏振融合创新工作。StitchFusion架构通过跨模态融合模块实现了RGBDA多通道输入的最优性能，MMSFormer和CMNeXt等通用融合框架也在该数据集上验证了偏振信息的互补价值。这些工作进一步推动了MCubeS、CMX等多模态数据集的扩展应用，并为轻量级实时融合算法的设计提供了重要参考，促进了偏振成像技术在水域感知领域的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集