five

RealCam-Vid Dataset

收藏
github2025-02-19 更新2025-02-22 收录
下载链接:
https://github.com/ZGCTroy/RealCam-Vid
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集结合了多样化的场景动态和绝对规模的相机轨迹,使得生成模型能够在统一的框架中学习场景动态和相机运动。

This dataset integrates diverse scene dynamics and camera trajectories with absolute scale, enabling generative models to learn scene dynamics and camera motion within a unified framework.
创建时间:
2025-02-14
原始信息汇总

RealCam-Vid Dataset

数据集简介

RealCam-Vid 数据集旨在解决当前相机运动和场景动态数据集存在的局限性,提供了一个结合了多样化场景动态和绝对尺度相机轨迹的独特数据集,使得生成模型能够在统一的框架下学习场景动态和相机运动。

数据集特点

  • 多样化场景动态与绝对尺度相机轨迹:数据集结合了丰富的场景动态和相机运动信息。
  • 高质量的相机轨迹标注:使用 MonST3R 方法为动态场景视频提供高质量的相机轨迹标注。
  • 绝对场景尺度对齐:确保不同来源的数据集在物理尺度上的一致性。

数据源

  • DL3DV-10K:包含不同类型的室内和室外场景。
  • MiraData:包含游戏渲染、体育、FPV 无人机和城市探索等场景。
  • RealEstate10K:包含房地产相关的场景。

伦理关注

所有 RealCam-Vid 数据集中的视频均来源于公共领域,仅用于信息参考。版权归视频原作者所有。如有任何疑虑,请联系 guangcongzheng@zju.edu.cn。

相关项目

引用

@article{li2025realcam, title={RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control}, author={Li, Teng and Zheng, Guangcong and Jiang, Rui and Zhan, Shuigen and Wu, Tao and Lu, Yehao and Lin, Yining and Li, Xi}, journal={arXiv preprint arXiv:2502.10059}, year={2025}, }

@article{zheng2024cami2v, title={CamI2V: Camera-Controlled Image-to-Video Diffusion Model}, author={Zheng, Guangcong and Li, Teng and Jiang, Rui and Lu, Yehao and Wu, Tao and Li, Xi}, journal={arXiv preprint arXiv:2410.15957}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
RealCam-Vid数据集的构建采用了多样化的场景动态与绝对尺度相机轨迹的独特结合。该数据集通过精心挑选的视频来源,并利用MonST3R等先进技术对动态场景的视频进行高质量的相机轨迹标注,确保了场景动态与相机运动的统一学习框架。
使用方法
使用RealCam-Vid数据集时,用户可以直接利用其中提供的标注数据来训练相机控制视频生成模型。数据集的多样性和高质量标注使得训练出的模型能够更好地泛化到真实世界的动态环境中,同时,绝对尺度的轨迹标注使得模型能够学习到具有物理意义的行为模式。
背景与挑战
背景概述
RealCam-Vid数据集旨在解决现有视频生成数据集在场景动态与相机轨迹结合方面的局限性。该数据集由浙江大学的研究团队于2025年创建,通过结合多样化的场景动态与绝对尺度相机轨迹,为生成模型提供统一框架下的训练资源。数据集的核心研究问题是提高模型在动态真实世界环境中的泛化能力,其影响力体现在推动了图像到视频生成领域的发展,尤其是交互式复杂相机控制的视频生成技术。
当前挑战
该数据集面临的挑战包括:1)克服现有数据集在场景动态与相机轨迹结合方面的领域问题,如静态场景导致模型无法泛化到动态环境中;2)构建过程中遇到的挑战,如动态前景物体对相机姿态估计的干扰,以及跨数据集间尺度不一致导致的兼容性问题。
常用场景
经典使用场景
在当前计算机视觉与图形学领域,RealCam-Vid数据集的提出旨在解决相机运动与场景动态结合的生成模型训练问题。该数据集通过融合多样化的场景动态与具有绝对尺度标注的相机轨迹,成为生成模型学习场景动态与相机运动的统一框架的典范。其经典使用场景在于,为生成模型提供训练所需的动态场景和相机运动数据,使得模型能够生成更加真实且可控的视频内容。
解决学术问题
RealCam-Vid数据集解决了现有数据集在领域特定偏误和不完整标注方面的限制,这些限制影响了模型在现实世界中的泛化能力。通过提供具有绝对尺度相机轨迹标注的数据,该数据集为训练具有物理意义运动模式的模型提供了可能,这对于3D重建、物体交互建模等任务至关重要,极大地推动了相关学术研究的进展。
实际应用
在实际应用中,RealCam-Vid数据集的应用场景广泛,包括但不限于虚拟现实、增强现实、视频游戏、无人驾驶等领域。数据集中丰富的场景动态和相机运动数据,使得开发出的模型能够更好地适应复杂多变的应用环境,满足实际应用中对视频内容真实性和可控性的高要求。
数据集最近研究
最新研究方向
RealCam-Vid数据集的推出,旨在解决现有相机运动与场景动态数据集在领域特定偏倚和不完整注释方面的局限性。该数据集结合了多样化的场景动态和绝对尺度相机轨迹,使得生成模型能够在统一框架中学习场景动态和相机运动。近期研究方向聚焦于利用RealCam-Vid数据集训练DiT-based模型,如CogVideoX,以实现具有交互式复杂相机控制的实时图像到视频生成。研究的影响和意义在于,通过高质的相机轨迹注释和绝对场景尺度对齐,模型能够学习到具有物理意义的运动模式,为三维重建、物体交互建模等任务提供了几何正确性保证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作