five

LMHaze|去雾技术数据集|图像处理数据集

收藏
arXiv2024-10-21 更新2024-10-23 收录
去雾技术
图像处理
下载链接:
http://arxiv.org/abs/2410.16095v1
下载链接
链接失效反馈
资源简介:
LMHaze数据集由北京理工大学创建,是一个大规模、高质量的真实世界去雾数据集,包含5040对高分辨率的模糊和清晰图像,涵盖多种室内外环境和不同雾浓度。数据集大小超过现有最大真实世界去雾数据集的25倍,图像分辨率高达5472×3648。数据集创建过程中,通过专业的雾生成器和静态场景采集,确保了图像对齐和雾浓度的多样性。此外,数据集还提供了多类型的手工标注,包括目标检测、语义分割和图像描述,旨在评估去雾方法在下游任务中的性能,解决现有数据集在雾浓度分布和场景多样性方面的不足。
提供机构:
北京理工大学
创建时间:
2024-10-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
LMHaze数据集的构建方式体现了对真实世界去雾需求的深刻理解。该数据集通过在多样化的室内外环境中捕捉高分辨率的雾霾图像和对应的清晰图像,构建了一个大规模、高质量的真实世界去雾数据集。具体而言,研究团队使用专业雾霾生成器在静态场景中生成不同强度的雾霾,并通过时间间隔控制捕捉雾霾从无到浓的多个中间状态。此外,为了确保图像对齐,所有拍摄过程中相机设置保持固定,最终形成了一个包含5,040对高分辨率图像的庞大数据集,显著超越了现有同类数据集的规模。
特点
LMHaze数据集的显著特点在于其规模大、分辨率高以及雾霾强度多样性。该数据集不仅包含了超过5,000对高分辨率图像,还涵盖了从轻度到密集的8种不同雾霾强度,为模型训练提供了丰富的数据支持。此外,数据集还提供了多类型的手工标注,包括对象检测、语义分割和图像描述,这些标注为评估去雾方法在下游任务中的表现提供了便利。这些特性使得LMHaze成为推动真实世界图像去雾研究的重要资源。
使用方法
LMHaze数据集的使用方法多样,适用于多种图像去雾研究和应用场景。研究者可以利用该数据集进行深度学习模型的训练和验证,特别是那些需要真实世界图像对的去雾算法。此外,数据集的多强度雾霾图像和丰富的语义标注,使得它非常适合用于评估去雾方法在不同雾霾条件下的性能,以及在对象检测、语义分割等下游任务中的表现。通过这些应用,LMHaze数据集为提升图像去雾技术的实际应用效果提供了坚实的基础。
背景与挑战
背景概述
图像去雾技术近年来引起了广泛关注,特别是在基于学习的去雾方法中,通常需要配对的雾霾图像和相应的无雾图像进行训练。然而,收集真实世界的配对图像是一项艰巨的任务,这限制了现有方法的发展。尽管一些研究通过使用合成数据集或小规模真实数据集部分缓解了这一问题,但现有数据集中的雾霾强度分布偏差和场景同质性限制了这些方法的泛化能力,特别是在处理之前未见过的雾霾强度图像时。为此,张瑞坤等人于2024年在北京理工大学提出并创建了LMHaze数据集,这是一个大规模、高质量的真实世界数据集。LMHaze包含了在多样化的室内外环境中捕获的配对雾霾和无雾图像,涵盖了多种场景和雾霾强度。该数据集包含超过5000对高分辨率图像,其规模超过了现有最大真实世界去雾数据集的25倍。
当前挑战
LMHaze数据集的构建过程中面临多项挑战。首先,收集真实世界的配对雾霾和无雾图像是一项技术难题,尤其是在户外环境中,确保图像对齐和质量的一致性极具挑战性。其次,现有数据集在雾霾强度多样性方面存在局限,导致模型在处理不同雾霾强度的图像时性能下降。此外,数据集的语义标注稀缺,这给评估去雾方法在下游任务(如目标检测、语义分割和图像描述)中的效果带来了不便。因此,构建一个大规模、高质量的真实世界去雾数据集对研究社区来说是一项既具挑战性又极具价值的工作。
常用场景
经典使用场景
LMHaze数据集在图像去雾领域中被广泛应用于训练和评估去雾算法。其经典使用场景包括但不限于:通过提供大量高质量的室内外雾霾图像对,研究人员可以训练深度学习模型以准确地从雾霾图像中恢复出清晰图像。此外,LMHaze数据集的多强度雾霾覆盖特性使得模型能够在不同雾霾强度下进行泛化测试,从而提高其在实际应用中的鲁棒性。
衍生相关工作
基于LMHaze数据集,研究者们开发了多种先进的去雾算法,如MoE-Mamba框架,该框架通过动态调整模型参数以适应不同雾霾强度,显著提升了去雾效果。此外,LMHaze数据集还激发了多模态模型在去雾任务中的应用研究,如使用大型多模态模型(LMM)进行去雾图像的评估,进一步推动了去雾技术的发展和创新。
数据集最近研究
最新研究方向
在图像去雾领域,LMHaze数据集的最新研究方向主要集中在提升模型的泛化能力和处理不同雾浓度图像的能力。随着深度学习技术的发展,研究人员越来越关注如何在真实世界中有效去雾,而LMHaze数据集因其大规模、高分辨率和多雾浓度特性,成为这一研究的重要基石。前沿研究不仅探索了基于混合专家模型(MoE-Mamba)的动态参数调整方法,还引入了大型多模态模型(LMM)进行去雾效果的评估,以模拟人类视觉感知。这些研究不仅提升了去雾算法在实际应用中的表现,还为下游视觉任务如目标检测和语义分割提供了更高质量的预处理图像,进一步推动了图像去雾技术的发展。
相关研究论文
  • 1
    LMHaze: Intensity-aware Image Dehazing with a Large-scale Multi-intensity Real Haze Dataset北京理工大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录