Flickr1024

Name: Flickr1024
Creator: 国防科技大学电子科学与技术学院
Published: 2019-08-22 22:54:34
License: 暂无描述

arXiv2019-08-22 更新2024-06-21 收录

下载链接：

https://yingqianwang.github.io/Flickr1024

下载链接

链接失效反馈

官方服务：

资源简介：

Flickr1024数据集是由国防科技大学电子科学与技术学院创建的大型立体图像数据集，包含1024对高质量图像，覆盖多种场景。数据集通过手动收集Flickr上的RGB立体照片并进行光学轴校正和图像处理生成。该数据集旨在解决现有立体数据集图像数量不足和场景类型有限的问题，适用于立体超分辨率算法的设计、训练和评估，尤其在智能手机双摄像头应用中具有重要价值。

The Flickr1024 dataset is a large-scale stereo image dataset created by the School of Electronic Science and Technology of the National University of Defense Technology. It contains 1024 pairs of high-quality images covering various scenarios. The dataset is generated by manually collecting RGB stereo photos from Flickr, followed by optical axis correction and image processing. It aims to solve the problems of insufficient image quantity and limited scene types in existing stereo datasets, and is applicable to the design, training and evaluation of stereo super-resolution algorithms, with particularly important value in the application of smartphone dual-camera systems.

提供机构：

国防科技大学电子科学与技术学院

创建时间：

2019-03-15

搜集汇总

数据集介绍

构建方式

在立体视觉领域，高质量数据集的稀缺制约了立体图像超分辨率技术的发展。Flickr1024数据集的构建始于从Flickr平台手动收集1024幅RGB立体照片，这些照片均获得了摄影所有者的使用许可。原始图像采用交叉眼模式，需通过交换左右图像位置以校正为平行光轴模式。随后，对每对图像进行垂直校正检查，确保仅存在水平视差；未满足条件的图像被剔除。最终，通过裁剪去除黑边或白边，并调整视差范围，使最小视差大于40像素，以保证无限深度区域的合理性。数据集被随机划分为800对训练图像、112对验证图像和112对测试图像，确保了数据分布的均衡性。

特点

Flickr1024数据集在立体超分辨率研究中展现出显著优势。其规模远超现有数据集，包含1024对高质量图像，覆盖动物、建筑、室内景观、自然风光、微距摄影、夜景、人物、植物、雕塑、街道、合成场景及交通工具等12类多样化场景，与日常摄影的真实情境高度契合。在客观指标上，该数据集在图像分辨率、信息熵及感知质量评估中表现优异，例如在ENIQA指标上获得最佳分数，且其标准偏差反映了场景丰富性带来的纹理变化。这种多样性不仅有助于缓解模型过拟合问题，还能提升算法在真实应用中的泛化能力，为移动设备等实际场景提供可靠支持。

使用方法

Flickr1024数据集专为立体超分辨率算法的训练与评估设计。研究人员可将其用于开发基于深度学习的立体超分辨率模型，如StereoSR和PASSRnet。使用前，需将图像对按4倍因子下采样以生成低分辨率输入，再通过模型重建至高分辨率，并与原始图像比较以计算PSNR和SSIM等性能指标。数据集的划分支持标准机器学习流程：训练集用于模型参数优化，验证集用于超参数调整，测试集则用于最终性能评估。跨数据集实验表明，基于Flickr1024训练的模型在KITTI、Middlebury及ETH3D等外部测试集上均能取得显著性能提升，验证了其增强模型泛化能力的有效性。

背景与挑战

背景概述

随着双摄像头在智能手机中的普及，立体图像超分辨率技术逐渐成为计算机视觉领域的研究热点。然而，该领域长期面临高质量立体数据集匮乏的困境，现有数据集如KITTI和Middlebury在图像数量、场景多样性等方面存在局限，难以支撑数据驱动的深度学习方法。为此，国防科技大学的研究团队于2019年推出了Flickr1024数据集，该数据集包含1024对高质量立体图像，覆盖动物、建筑、室内、景观等十余类日常摄影场景，旨在为立体超分辨率算法的训练与评估提供大规模、多样化的数据基础。Flickr1024的构建不仅填补了立体超分辨率领域的数据空白，其丰富的场景构成和高质量的图像内容也为推动相关算法的实际应用奠定了重要基石。

当前挑战

在立体超分辨率领域，核心挑战在于如何有效利用双目图像间的互补信息以提升分辨率，同时避免因数据单一导致的模型过拟合问题。现有数据集如KITTI专注于自动驾驶场景，Middlebury局限于实验室近摄物体，均缺乏日常摄影的多样性，使得算法难以泛化至真实应用环境。构建Flickr1024数据集的过程中，研究团队面临多重挑战：首先，从Flickr平台收集的立体照片多为交叉眼模式，需通过交换左右图像并进行垂直校正以转换为平行光学轴格式，这一预处理流程复杂且需保证几何一致性；其次，为确保数据质量，需人工筛选并裁剪图像以消除黑边、调整视差范围，并维持无限深度对应的零视差特性，这些操作对精度要求极高；最后，数据集的划分需平衡训练、验证与测试集之间的场景分布，以降低模型偏差并提升评估可靠性。

常用场景

经典使用场景

在立体视觉与超分辨率融合的研究领域中，Flickr1024数据集作为大规模高质量立体图像对资源，其经典使用场景集中于训练和评估基于深度学习的立体图像超分辨率算法。该数据集通过提供涵盖动物、建筑、室内景观等多样化场景的1024对图像，使得研究人员能够构建具有强泛化能力的模型，有效利用双目系统的互补信息来提升图像分辨率。

衍生相关工作

Flickr1024数据集的发布催生了一系列立体超分辨率领域的创新研究。例如，PASSRnet利用该数据集引入了视差注意力机制，显著提升了重建精度；后续工作如StereoSR等也在此基础上探索了多尺度特征融合与跨视图一致性约束，进一步推动了立体视觉与超分辨率交叉方向的技术演进。

数据集最近研究