EGVD

Name: EGVD
Creator: 浙江大学, 上海人工智能实验室, 上海交通大学, 香港中文大学
Published: 2025-03-26 14:33:32
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

https://github.com/OpenImagingLab/EGVD

下载链接

链接失效反馈

官方服务：

资源简介：

EGVD数据集是由浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合构建的，包含122810帧图像跨越400个场景。该数据集结合了真实世界和合成的_event_-RGB数据，用于训练EGVD模型，以提高模型在处理大运动和挑战性光照条件下的泛化能力。

The EGVD dataset was jointly constructed by Zhejiang University, Shanghai AI Laboratory, Shanghai Jiao Tong University, and The Chinese University of Hong Kong. It contains 122,810 image frames spanning 400 distinct scenes. This dataset combines real-world and synthetic event-RGB data, and is used for training the EGVD model to improve its generalization capability when handling large motions and challenging lighting conditions.

提供机构：

浙江大学, 上海人工智能实验室, 上海交通大学, 香港中文大学

创建时间：

2025-03-26

原始信息汇总

EGVD数据集概述

数据集基本信息

数据集名称：EGVD (Event-Guided Video Diffusion Model)
官方代码库：https://github.com/OpenImagingLab/EGVD

数据集用途

用于实现物理真实感大运动帧插值的事件引导视频扩散模型

注意事项

论文被接受后代码将公开

搜集汇总

数据集介绍

构建方式

EGVD数据集的构建采用了多模态融合策略，结合真实与模拟事件数据以增强泛化能力。研究团队从公开资源收集了400个场景的122,810帧数据，包括DJI Action4拍摄的240fps视频降采样至30fps的模拟数据，以及Prophesee事件相机在正常光照与低光条件下采集的真实数据。通过v2e模拟器生成合成事件流，并采用创新的ROI选择机制聚焦运动显著区域，有效平衡了计算效率与运动信息保真度。数据集特别设计了×3跳帧策略来强化大运动场景的评估，同时混合不同跳帧模式的训练序列以提升模型适应性。

特点

该数据集最显著的特点是实现了事件流与RGB帧的时空对齐，通过8个时间仓的事件体素网格编码捕捉微秒级运动信息。其多模态特性体现在同时包含低光环境、正常光照和大运动场景的多样化样本，其中DJI 30fps子集专门针对挑战性运动场景设计。数据集采用VAE编码器将帧序列映射到潜空间，配合事件流的动态掩膜机制，在保持静态区域计算效率的同时，显著提升了运动敏感区域的建模精度。定量评估显示，该数据集在LPIPS指标上较现有基准提升27.4%，在保持时空一致性的同时实现了更精细的运动细节重建。

使用方法

使用EGVD数据集需遵循两阶段处理流程：首先通过多模态运动条件生成器(MMCG)提取事件与RGB帧的融合特征，生成潜空间运动条件；随后将这些条件输入微调后的稳定视频扩散(SVD)模型进行帧插值。具体操作时，需将输入帧对与对应事件流转换为8-bin体素网格，经3D卷积模块提取时空特征后，通过残差注意力学习模块生成扩散引导信号。实践建议采用50步DDIM采样配合分类器无关引导，在512×512分辨率下可获得最优效果。数据集已预分割训练测试集，其中测试集包含63个场景，评估时建议采用PSNR、SSIM与LPIPS等多指标联合验证。

背景与挑战

背景概述

EGVD（Event-Guided Video Diffusion Model）数据集由上海人工智能实验室与浙江大学等机构的研究团队于2025年提出，旨在解决大运动场景下视频帧插值（Video Frame Interpolation, VFI）的物理真实性问题。该数据集创新性地融合事件相机的高时序分辨率数据与稳定视频扩散模型（SVD）的生成先验，通过多模态运动条件生成器（MMCG）实现RGB帧与事件信号的协同建模。其核心研究问题聚焦于克服传统RGB-VFI方法在非线性大运动中的模糊性问题，以及现有事件VFI方法在复杂光照与数据稀缺场景的局限性。EGVD通过构建包含12.8万帧的混合数据集（含真实与模拟事件数据），显著提升了插值帧的感知质量（LPIPS指标提升27.4%），为计算摄影学领域的高速成像应用提供了新范式。

当前挑战

EGVD面临的挑战主要体现在两方面：领域问题层面，大运动场景下视频帧插值存在运动歧义性难题，传统RGB方法因缺乏帧间精确运动信息易产生伪影，而事件相机虽能捕获微秒级动态，但其数据稀疏性导致运动模式建模困难；构建过程层面，多模态数据（RGB与事件流）的时空对齐复杂度高，且预训练扩散模型与事件引导信号的融合需解决模态鸿沟问题。此外，真实事件数据采集受限于硬件成本与光照条件，需依赖模拟数据补充，但仿真与真实域的差异可能影响模型泛化性。

常用场景

经典使用场景

EGVD数据集在视频帧插值（VFI）领域具有广泛的应用，特别是在处理大运动和复杂光照条件下的场景时表现出色。该数据集通过结合事件相机的高时间分辨率数据和RGB帧信息，为生成中间帧提供了精确的运动线索。其经典使用场景包括高速运动物体的视频插值、低光照条件下的视频增强以及非刚性运动（如人体动作）的插值。在这些场景中，EGVD能够生成物理真实的中间帧，显著优于传统RGB-based和event-based方法。

实际应用

在实际应用方面，EGVD数据集可广泛应用于多个领域。在自动驾驶领域，可用于增强低帧率摄像头捕获的视频，提高障碍物检测的准确性。在体育分析中，能够生成高速运动的高帧率视频，便于动作分析和裁判决策。在医疗影像领域，可用于增强内窥镜等低光照条件下的视频质量。此外，在电影制作和虚拟现实领域，EGVD能够生成平滑的慢动作效果，提升视觉体验。这些应用都得益于EGVD在大运动和挑战性光照条件下的优异表现。

衍生相关工作

EGVD数据集衍生了一系列相关研究工作。在方法层面，启发了多模态运动条件生成器（MMCG）的设计，该架构被广泛应用于其他视频处理任务。在模型方面，其提出的两阶段训练策略为扩散模型在其他低层次视觉任务中的应用提供了参考。数据集方面，EGVD促进了事件相机与RGB相机联合数据采集标准的发展。此外，基于EGVD的框架还被扩展到视频超分辨率、视频去模糊等任务中，推动了事件相机在计算机视觉领域的广泛应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

EGVD

EGVD数据集概述

数据集基本信息

数据集用途

相关资源

注意事项