five

SynTIDE|水下图像处理数据集|计算机视觉数据集

收藏
arXiv2025-03-28 更新2025-03-29 收录
水下图像处理
计算机视觉
下载链接:
https://github.com/HongkLin/TIDE
下载链接
链接失效反馈
资源简介:
SynTIDE数据集是由华中科技大学的研究团队创建的,包含大约14K个水下场景的图像、深度图、语义掩模和对应的文本描述。该数据集通过TIDE模型生成,能够同时生成高度一致的水下场景图像和多种类型的密集注释,如深度图和语义掩模。数据集的构建旨在解决水下环境中密集预测任务的数据稀缺问题,为水下场景的深度估计和语义分割提供支持。
提供机构:
华中科技大学
创建时间:
2025-03-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
SynTIDE数据集的构建依托于TIDE模型,这是一种创新的文本到图像及密集标注生成方法。通过预训练的文本到图像模型和两个微调的小型变换器,TIDE能够仅基于文本输入同时生成逼真的水下图像及其对应的深度图和语义掩码。为确保生成数据的一致性,研究团队引入了隐式布局共享机制(ILS)和时间自适应归一化(TAN)方法。具体而言,ILS通过共享文本到图像模型中的交叉注意力图来对齐不同模态的输出,而TAN则利用跨模态特征交互进一步优化生成结果。数据准备阶段,研究团队整合了约14K组四元数据(图像、深度图、掩码、描述文本),其中深度图通过Depth Anything模型获取,描述文本则由BLIP2模型生成。
特点
SynTIDE数据集以其多模态一致性、规模性和真实性在水下场景理解领域脱颖而出。该数据集包含约50K组高质量样本,每个样本均由图像、深度图和语义掩码构成,且三者保持严格的几何对齐。区别于传统水下数据集,SynTIDE通过生成模型突破了真实数据采集的成本限制,能够涵盖复杂的水下光照条件(如低光、浑浊水体)和多样化的海洋生物场景。特别值得注意的是,数据集展现出强大的零样本生成能力,即使面对训练中未出现的物体描述(如'水下哥斯拉'),仍能生成合理的图像-深度对。这种特性使其成为提升模型泛化能力的理想训练资源。
使用方法
SynTIDE数据集主要应用于水下密集预测任务的模型训练与性能验证。在深度估计任务中,研究者可将其作为预训练或微调数据,通过比较SIlog、δ1等指标评估模型性能。实验表明,在NewCRFs等模型上使用SynTIDE数据微调后,在Sea-thru数据集的D3子集上SIlog指标提升达14.73。对于语义分割任务,数据集需经过1.5容忍度的噪声过滤后使用,在ViT-Adapter等模型上能带来2.1%的mIoU提升。使用者可通过调整每个文本提示的生成样本数(建议6-10个)平衡数据多样性与训练效率。值得注意的是,该数据集特别适合解决低光照、高浊度等挑战性水下场景的理解问题。
背景与挑战
背景概述
SynTIDE数据集由华中科技大学的研究团队于2025年提出,旨在解决水下场景密集预测任务中高质量标注数据稀缺的难题。该数据集基于创新的TIDE模型构建,通过文本条件同步生成水下图像及其对应的深度图和语义分割标注,实现了多模态数据的高度一致性。作为首个仅依赖文本输入即可生成多类型密集标注的水下数据集,SynTIDE通过隐式布局共享机制和时间自适应归一化方法,显著提升了水下深度估计和语义分割任务的性能表现,为海洋探测与环境监测领域提供了重要的数据支撑。
当前挑战
SynTIDE面临的挑战主要体现在两方面:在领域问题层面,水下图像存在光照衰减、散射效应和颜色失真等物理干扰,导致传统密集预测模型难以准确估计深度和分割语义;同时水下生物形态多样性和场景复杂性对标注一致性提出更高要求。在构建过程层面,研究者需解决多模态特征对齐难题,包括文本描述与水下视觉特征的语义鸿沟、生成图像与深度图的几何一致性保持,以及有限真实标注数据下模型泛化能力的提升。此外,水下特殊光学特性使得传统陆地数据合成方法难以直接迁移,需开发专用的跨模态交互机制。
常用场景
经典使用场景
SynTIDE数据集在水下计算机视觉领域具有广泛的应用价值,尤其在深度估计和语义分割任务中表现突出。该数据集通过TIDE模型生成高质量的水下图像及其对应的密集标注,为研究人员提供了丰富的训练样本。经典使用场景包括水下场景理解、目标检测以及环境监测等任务。其独特的文本到图像及密集标注生成能力,使得SynTIDE成为水下视觉研究中不可或缺的数据资源。
实际应用
在实际应用中,SynTIDE数据集为水下机器人导航、海洋资源勘探以及生态监测等任务提供了可靠的数据支持。其生成的图像和标注可用于训练自主水下航行器的感知系统,提升在复杂水下环境中的目标识别和避障能力。此外,该数据集还可用于珊瑚礁健康评估和海洋污染监测等环保项目,为科学研究提供精准的视觉分析工具。
衍生相关工作
SynTIDE数据集推动了多项相关研究的进展,例如基于扩散模型的水下图像生成方法Atlantis的改进,以及水下实例分割数据集UIIS的扩展工作。该数据集的创新生成机制还启发了跨模态特征交互技术Time Adaptive Normalization的发展,为多任务水下视觉模型提供了新的优化思路。这些衍生工作进一步丰富了水下计算机视觉领域的研究工具和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T

该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。

github 收录

Natural Scene Braille Character Recognition Dataset

There are a total of 1157 Braille segment images in this dataset, including 925 in the training set and 232 in the testing set. There are two folders in the directory of this dataset: character_label and segment_label. The character_rabel file contains three formats of Braille segment images: (1) Braille segment images and label files stored in ICDAR-2015 format, each. jpg file corresponds to a. txt file, where each line stores the position and recognition label of a braille character rectangle box. The data corresponds to the coordinates of the four points in the rectangle box and the recognized numerical label; (2) The original format of the data is stored in the folder org. Each .jpg file in this folder corresponds to a .json file which marked by labelme software; (3) VOC format, stored in voc-data folder. This folder stores images and corresponding .xml files in VOC format, and marks the position of each braille character rectangle box and its corresponding numerical label information in the .xml file. In addition, the original Braille images of natural scenes and the corresponding Braille segment markings .json files are stored in the folder segment_label.

DataCite Commons 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录