five

Mono2Stereo

收藏
arXiv2025-03-28 更新2025-04-03 收录
下载链接:
https://mono2stereo-bench.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
Mono2Stereo数据集是一个大规模的高质量立体转换数据集,包含超过2.4百万的立体图像对,涵盖室内外环境、动画和真实生活内容以及不同复杂度的场景。该数据集由200个视频和电影(超过2000万帧)中筛选和裁剪得到,采用侧-by-side 3D格式,每帧图像都有对应的左右视角图像。数据集被分为训练集和测试集,用于评估立体转换模型在视差准确性、场景复杂度和颜色一致性三个关键方面的性能。

The Mono2Stereo Dataset is a large-scale, high-quality stereo conversion dataset containing over 2.4 million stereo image pairs. It covers indoor and outdoor environments, animated and real-life content, as well as scenes with varying complexity. This dataset is curated and cropped from 200 videos and films (over 20 million frames), adopting the side-by-side 3D format, where each stereo image pair includes its corresponding left and right viewpoint images. The dataset is split into a training set and a test set, which is used to evaluate the performance of stereo conversion models across three critical aspects: disparity accuracy, scene complexity, and color consistency.
提供机构:
大连理工大学(DLUT), ARC Lab, 腾讯PCG, 香港科技大学(HKUST(GZ))
创建时间:
2025-03-28
搜集汇总
数据集介绍
main_image_url
构建方式
在立体视觉转换领域,高质量数据集的构建是推动算法发展的关键。Mono2Stereo数据集通过精心筛选互联网上的立体内容,经过严格的人工审核去除低质量和敏感素材,最终收集了200余部视频和电影(超过2000万帧)。为确保数据多样性和减少帧间冗余,采用每8帧采样1帧的策略,并将所有帧统一调整为960×540分辨率,最终构建了包含240万对立体图像的大规模数据集。数据划分为五个类别(室内、室外、简单、复杂和动画),每个类别提供500对非重叠测试样本,以全面评估模型在不同场景下的性能。
特点
Mono2Stereo数据集以其多样性和高质量著称,涵盖了室内外环境、动画与实景内容以及不同复杂度的场景。其独特之处在于通过五个精心设计的测试类别(基于视差范围、几何复杂度和色彩分布)全面评估立体效果。数据集中左右视图的差异虽细微但关键,传统指标难以捕捉,为此论文创新性提出了Stereo Intersection-over-Union (SIoU)指标,专注于视差一致性和边缘结构对齐,与人类立体感知高度相关。此外,数据集支持视频立体转换评估,为研究提供了多维度的验证平台。
使用方法
该数据集为立体转换任务提供了标准化评估框架。研究者可利用其五类测试集(各500样本)进行跨场景性能分析,或通过20个视频片段验证时序一致性。使用时应结合论文提出的SIoU指标(α=0.75)评估立体质量,该指标通过融合边缘IoU(Canny算子提取)和视差IoU(阈值设为5)量化立体效果。对于模型训练,建议采用双条件输入(原始左视图+视差扭曲图像)配合边缘一致性损失(Sobel算子约束速度场边缘),以平衡图像质量与立体效果。数据已开源,支持直接加载或通过指定分辨率(训练640×480/测试原分辨率)进行预处理。
背景与挑战
背景概述
Mono2Stereo数据集由大连理工大学、腾讯ARC实验室和香港科技大学(广州)的研究团队于2025年3月联合发布,旨在解决立体视觉转换领域的关键问题。随着增强现实(AR)和虚拟现实(VR)技术的快速发展,3D内容的需求急剧增加,而传统的立体内容制作方法依赖人工深度映射或双目设备,效率低下且成本高昂。该数据集包含240万对高质量立体图像对,涵盖室内外环境、动画与实景内容,以及不同复杂度的场景,为基于扩散模型的立体转换研究提供了重要支持。其创新性地提出了立体交并比(SIoU)评价指标,并通过双条件基线模型突破了生成质量与立体效果的平衡难题,显著推动了自动2D转3D技术的发展。
当前挑战
Mono2Stereo数据集面临的核心挑战体现在两个维度:领域问题层面,现有方法在单阶段生成(易出现立体效果退化)与两阶段生成(易产生图像畸变)之间存在固有矛盾,且传统评估指标(如RMSE、SSIM)无法准确量化立体感知质量;数据构建层面,立体图像对的左右视图差异细微,导致模型优化时易退化为恒等映射,同时大规模立体数据的稀缺性使得模型难以捕捉复杂场景下的精确视差关系。此外,动画与自然图像间的色彩分布差异、高动态范围场景的几何一致性等问题,进一步增加了数据标注与模型训练的复杂度。
常用场景
经典使用场景
Mono2Stereo数据集在立体视觉转换领域具有广泛的应用价值,尤其在单目图像到立体图像转换任务中表现突出。该数据集通过提供超过240万对高质量立体图像对,涵盖了室内、室外、动画、简单和复杂场景等多种类别,为研究人员提供了丰富的训练和测试资源。其经典使用场景包括利用扩散模型进行立体图像生成,通过几何条件和视角条件的双条件建模,实现高质量的立体效果生成。
实际应用
Mono2Stereo数据集在实际应用中具有广泛的前景,尤其在增强现实(AR)和虚拟现实(VR)领域。随着3D设备的普及和3D内容的短缺,该数据集为自动化立体内容生成提供了可靠的数据支持。例如,在影视制作中,可以快速将2D影片转换为3D格式;在游戏开发中,能够生成逼真的立体场景。此外,该数据集还可用于医学影像处理,为立体视觉诊断提供技术支持。
衍生相关工作
Mono2Stereo数据集的发布推动了立体视觉转换领域的多项经典工作。基于该数据集,研究人员提出了多种改进方法,如StereoDiffusion和StereoCrafter,进一步优化了立体图像生成的效果。此外,该数据集还启发了对扩散模型在立体视觉任务中的应用研究,例如通过边缘一致性损失解决模型退化问题。这些衍生工作不仅在学术界引起了广泛关注,也为工业界的实际应用提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作