UniStereo
收藏arXiv2025-12-19 更新2025-12-20 收录
下载链接:
https://github.com/KlingTeam/StereoPilot
下载链接
链接失效反馈官方服务:
资源简介:
UniStereo是由香港科技大学与快手科技联合构建的首个大规模统一立体视频转换数据集,涵盖平行和汇聚两种立体格式。该数据集包含约10.3万条高质量立体视频对,其中Stereo4D子集提供10万条平行格式数据,3DMovie子集贡献4.8万条电影级汇聚格式数据,所有视频均经标准化处理至832×480分辨率及16帧率,并配备自动化生成的文本描述。数据集通过专业预处理流程整合VR180视频与3D电影源,解决了立体视频领域格式割裂与评估标准不统一的问题,为单目到立体视频转换模型的训练与公平评测提供重要基础。
UniStereo is the first large-scale unified stereoscopic video conversion dataset jointly constructed by The Hong Kong University of Science and Technology and Kuaishou Technology, covering two stereoscopic formats: parallel and convergent. This dataset contains approximately 103,000 high-quality stereoscopic video pairs, where the Stereo4D subset provides 100,000 parallel-format samples, and the 3DMovie subset contributes 48,000 movie-level convergent-format samples. All videos have been standardized to a resolution of 832×480 and a frame rate of 16 fps, and are accompanied by automatically generated textual descriptions. Through a professional preprocessing pipeline, the dataset integrates VR180 videos and 3D movie sources, addressing the issues of format fragmentation and inconsistent evaluation standards in the stereoscopic video field. It provides an important foundation for the training and fair evaluation of monocular-to-stereoscopic video conversion models.
提供机构:
香港科技大学(广州)、香港科技大学、快手科技Kling团队、香港中文大学
创建时间:
2025-12-19
原始信息汇总
StereoPilot数据集概述
数据集名称
UniStereo
数据集简介
UniStereo是首个大规模的统一立体视频数据集,同时包含平行和汇聚两种立体格式。
数据集构成
UniStereo由两部分组成:
- 3DMovie:包含来自3D电影的汇聚立体格式数据。
- Stereo4D:包含平行立体格式数据(即将发布)。
数据处理
详细的数据处理说明请参考:https://github.com/KlingTeam/StereoPilot/blob/main/StereoPilot_Dataprocess/
相关研究
该数据集为论文《StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors》的研究组成部分,旨在支持高效、统一的多格式立体转换模型的训练与评估。
搜集汇总
数据集介绍

构建方式
在立体视觉内容生成领域,数据集的构建质量直接决定了模型性能的上限。UniStereo作为首个大规模、统一格式的立体视频转换数据集,其构建过程体现了严谨的工程设计与领域洞见。该数据集整合了并行(Parallel)与汇聚(Converged)两种主流立体格式,通过两条并行的处理流水线完成。对于并行格式数据,研究团队基于Stereo4D官方流程,从海量VR180视频源中提取内容,设定90度水平视场角进行透视校正,生成分辨率为832×480、帧率统一为16fps的立体视频对,并利用先进的视频描述模型为每个样本生成文本描述。针对汇聚格式数据,团队从142部高质量3D电影中手动筛选并验证立体对应关系,通过自动场景分割、剔除非信息片段、将并排格式转换为左右单目流、去除黑边并统一分辨率至832×480,最终构建了包含约10.3万个立体视频对的标准化数据集,为公平评测与鲁棒训练奠定了坚实基础。
特点
UniStereo数据集的核心特征在于其前所未有的统一性与规模性,有效解决了立体视频转换领域长期存在的格式割裂与评测不公问题。该数据集首次同时囊括了并行与汇聚两种立体格式,覆盖了从日常动态场景到专业影视内容的广泛视觉多样性。其数据规模达到约10.3万个立体视频对,每个样本均配有高质量的文本描述,增强了模型的条件生成能力。数据集在构建时特别注重挑战性场景的纳入,如包含镜面反射与透明物体的复杂光学环境,这为模型处理深度模糊性等固有难题提供了关键训练素材。此外,所有视频均经过严格的时序与空间标准化处理,确保了训练样本在帧长、分辨率与帧率上的一致性,为模型的高效收敛与稳定泛化提供了保障。
使用方法
UniStereo数据集为立体视频转换任务提供了标准化的训练与评测平台,其使用方法紧密贴合研究与实践需求。在模型训练阶段,研究者可将数据集按格式划分,分别或联合用于训练端到端的单目到立体视频转换模型,特别适用于验证模型在跨格式泛化、深度模糊处理等方面的能力。数据集中提供的文本描述可作为条件输入,引导生成过程,提升内容语义的一致性。在性能评测方面,数据集配备了专门的测试集,支持使用PSNR、SSIM、LPIPS、SIOU等多项指标进行定量评估,确保比较的公平性与全面性。此外,数据集的统一格式设计使得研究者能够系统探究不同立体配置(如平行与汇聚)对模型性能的影响,推动领域向更通用、更鲁棒的解决方案发展。
背景与挑战
背景概述
随着虚拟现实头显、智能眼镜和3D影院等立体显示技术的飞速发展,市场对高质量立体视频内容的需求日益增长。然而,原生立体视频的制作依赖昂贵的专业设备与复杂的后期流程,而将海量现有2D视频转换为立体格式同样面临巨大挑战。为应对这一领域难题,香港科技大学(广州)、快手Kling团队等机构的研究人员于近期共同构建了UniStereo数据集。作为首个大规模、统一的立体视频转换数据集,UniStereo创新性地同时包含了平行与汇聚两种主流立体格式,共计约10.3万对立体视频片段及其文本描述。该数据集的发布旨在为单目到立体的视频转换任务提供公平的基准测试与鲁棒的模型训练基础,推动高效、高质量自动转换技术的发展,对影视、游戏等沉浸式媒体产业具有重要的研究价值与应用潜力。
当前挑战
UniStereo数据集致力于解决单目到立体视频转换这一核心领域问题,其面临的挑战主要体现在两个方面。在领域问题层面,传统基于“深度-形变-修复”的多阶段流水线方法存在根本性局限:深度估计误差会在后续阶段累积传播;对于镜面反射等场景,单一像素可能对应多个深度值,导致深度歧义问题;此外,不同立体格式(平行与汇聚)间存在几何假设不匹配,使得模型难以统一处理。在数据集构建过程中,挑战同样显著:需从海量VR180视频与3D电影中分别提取平行与汇聚格式的立体对,并确保严格的时空对齐与格式一致性;同时,需设计自动化流程以过滤无效内容、去除黑边、生成高质量文本描述,并最终整合为规模庞大、标注统一且可用于公平评测的标准数据集。
常用场景
经典使用场景
在立体视觉与沉浸式媒体领域,UniStereo数据集为单目到立体视频转换任务提供了首个大规模、统一格式的基准资源。该数据集整合了平行与汇聚两种主流立体格式,覆盖了从日常动态场景到专业3D电影内容的广泛样本,为模型训练与评估建立了标准化环境。其经典应用场景在于支撑端到端的立体视频合成研究,特别是针对生成式先验模型(如StereoPilot)的开发,使得研究者能够在一个公平且多样化的数据基础上,探索如何高效、高质量地将单目视频转换为具有深度感知的立体内容,从而推动自动立体转换技术的进步。
解决学术问题
UniStereo数据集的构建直接回应了立体视频转换领域长期存在的若干核心学术挑战。传统多阶段“深度-扭曲-修复”流程因深度估计误差传播、深度歧义性问题以及平行与汇聚格式间几何假设不一致而受限。该数据集通过提供统一标注的双格式立体对,使得模型能够摆脱对显式深度图的依赖,从而规避深度歧义性(如镜面反射场景)所带来的几何失真。同时,它促进了公平的跨格式模型比较,解决了以往因训练数据格式不匹配而导致的不公正评估问题,为探索直接合成目标视图的端到端方法奠定了数据基础,显著提升了立体合成的鲁棒性与泛化能力。
衍生相关工作
以UniStereo数据集为基础,衍生出了一系列经典的立体视频生成研究工作。其中,StereoPilot模型作为代表性成果,创新性地采用“扩散即前馈”架构,利用预训练视频扩散变换器的生成先验直接合成目标视图,避免了迭代去噪的计算开销,并引入了可学习域切换器与循环一致性损失以统一处理多格式数据。此外,该数据集也催生了对“深度-扭曲-修复”范式局限性的深入反思,激励了如Mono2Stereo、StereoCrafter等后续研究,它们或致力于构建更全面的评估基准,或探索更高效的立体合成管道,共同推动了该领域从依赖几何假设向数据驱动、端到端生成范式的范式转移。
以上内容由遇见数据集搜集并总结生成



