VidLLVIP

github2026-05-06 更新2026-05-08 收录

下载链接：

https://github.com/jianfeng0369/VidLLVIP

下载链接

链接失效反馈

官方服务：

资源简介：

VidLLVIP是一个非官方的处理过的红外-可见光配对视频数据集，源自原始LLVIP视频。该数据集提供了时间对齐、空间配准、质量检查的5秒视频对，用于视频融合、跨模态配准和多模态视频理解。

VidLLVIP is an unofficial processed paired video dataset of infrared and visible light modalities, derived from the original LLVIP video corpus. It provides 5-second video pairs that are time-aligned, spatially registered and quality-checked, and is designed for tasks including video fusion, cross-modal registration and multimodal video understanding.

创建时间：

2026-04-13

原始信息汇总

VidLLVIP 数据集概述

基本信息

VidLLVIP 是一个非官方处理的红外-可见光配对视频数据集，源自原始 LLVIP 数据集中的原始视频。该数据集提供了时间对齐、空间配准、质量检查后的 5 秒视频对，适用于视频融合、跨模态配准和多模态视频理解等任务。

数据规模与规格

项目	数值
来源	LLVIP 原始红外-可见光视频
处理的源视频对	14 对，编号 `01`-`14`
最终配对片段	894 对
模态	红外 (`ir`) 和可见光 (`vi`)
片段长度	5 秒
分辨率	`1280 x 1024`
帧率	25 FPS
每片段帧数	125
配对规则	`dataset/ir` 和 `dataset/vi` 下同文件名配对

数据格式

最终片段以配对文件形式存储，文件命名格式为：{源视频编号}_{起始秒}_{结束秒}.mp4 例如：01_0000_0005.mp4 表示源视频 01，从 0s 到 5s。

仓库结构

VidLLVIP/ README.md README_zh-CN.md raw/ videos/{ir,vi}/ # 原始LLVIP视频（未对齐） datamaker/ 01_time_align.py # 时间对齐 02_space_align.py # 空间配准 03_checkerboard.py # 棋盘格质量检查视频 04_split_5s_videos.py # 5秒片段生成 requirements.txt matrix/ # 编号01-14的3x3透视矩阵 01_align/ # 时间对齐后的完整视频和时间戳表 02_warp/ # 空间配准后的完整视频 03_ckboard/ # 棋盘格质量检查视频 dataset/ ir/ # 最终红外片段 vi/ # 最终可见光片段 figs/ # README图片

数据处理管线

时间对齐：读取帧时间戳，以较短流为基础，使用单调最近帧匹配进行对齐，默认最大时间戳差为 0.08s。
空间配准：使用 3x3 透视矩阵将红外帧变换到可见光坐标系，并裁剪至 1280 x 1024。
棋盘格质量检查：交替显示红外和可见光块，便于人眼检查边缘连续性和目标对齐质量。
分割为 5 秒片段：默认窗口和步长均为 5s，不足 5s 的尾部被跳过。

建议用途

视频融合：使用 dataset/ir 和 dataset/vi 中的同名片段。
跨模态配准：使用 datamaker/01_align 作为时间对齐但空间未配准的输入，datamaker/02_warp 作为配准参考。
联合融合与配准：在 datamaker/01_align 上训练配准，在 datamaker/02_warp 或 dataset/ 上训练或评估融合。

下载方式

Hugging Face: https://huggingface.co/datasets/jianfeng0369/VidLLVIP
夸克网盘: https://pan.quark.cn/s/e3abe425aa5f?pwd=E5gv

引用要求

VidLLVIP 源自 LLVIP 数据集，使用时需同时遵循原始 LLVIP 许可协议和引用要求，并引用 VidLLVIP 数据集本身。

搜集汇总

数据集介绍

构建方式

红外与可见光视频融合研究长期受限于时空未对齐的数据瓶颈，VidLLVIP数据集应运而生，其构建遵循一套严谨的自动化流程。基于LLVIP原始视频对，首先通过01_time_align.py脚本读取帧时间戳，以较短视频流为基准，采用单调最近帧匹配法进行时间对齐，将最大时间戳差距控制在0.08秒内。随后利用02_space_align.py脚本，借助预计算的3x3透视变换矩阵将红外帧扭曲至可见光坐标系，并裁剪为统一的1280×1024分辨率。在此之后，通过03_checkerboard.py生成棋盘格质量检测视频，以目视检查边缘连续性与物体对齐精度。最终由04_split_5s_videos.py脚本将时空对齐后的完整视频切分为5秒片段，步长与窗口长度一致，并舍弃不足5秒的尾部，形成894对高质量视频片段。

特点

VidLLVIP数据集以时空双重对齐与质量可控性为核心亮点，为多模态视频理解提供坚实的数据根基。其构建过程精细，确保了红外与可见光视频在时间维度上帧级同步，在空间维度上像素级配准，极大降低了模态间因视角与时间差异带来的融合误差。数据集包含894对5秒片段，每段涵盖125帧，分辨率为1280×1024，帧率为25FPS，命名规则将同一源视频编号与时间区间直接编码于文件名中，红外与可见光片段以同名文件自然配对，简洁直观。此外，数据集保留原始未配准视频作为中间产物，为联合配准与融合任务提供灵活的基准选择，丰富了研究场景的广度。

使用方法

VidLLVIP的数据使用灵活且具备可复现性，研究者在实际应用中可按需选取核心或衍生数据。对于仅需配对视频片段的任务，可直接读取dataset/ir与dataset/vi目录下的同名.mp4文件，形成简单高效的双模态数据对。若需复现数据集构建流程或进行交叉模态配准研究，可使用datamaker/目录下的脚本，先安装Python依赖及ffmpeg环境，依次执行时间对齐、空间配准、棋盘格质检和片段分割四个步骤，其中01_align产物可作未配准输入，02_warp产物用作配准基准。数据集通过Hugging Face与夸克网盘分发，压缩包解压至对应目录后即可直接调用，代码示例展示了基于pathlib的装载方式，便于研究者快速集成至视频融合、配准及联合优化等任务中。

背景与挑战

背景概述

VidLLVIP数据集由丁剑锋等人于2026年创建，旨在解决红外与可见光视频在时空维度上的对齐与融合问题。该数据集源自LLVIP原始视频，通过精细的时序对齐、空间配准和质量检查，生成了894对5秒长的1280×1024分辨率视频片段，为跨模态视频融合、配准及多模态理解提供了标准化基准。VidLLVIP的出现填补了高质量红外-可见光视频配对数据集的空白，其附带的预处理工具链和相关性论文CMVF已被《Information Fusion》接收，显著推动了低光环境下多模态视觉感知研究的发展。

当前挑战

VidLLVIP所应对的领域挑战包括：一是红外与可见光视频因成像机理差异导致的时空不一致性，使得传统图像级配准难以直接迁移至视频，亟需联合对齐与融合的新方法；二是低光环境下可见光模态的信噪比劣化，对融合算法的鲁棒性和细节保持能力提出了严苛要求。在数据集构建过程中，主要挑战在于：原始LLMVP视频的帧率波动与相机非同步触发导致时间戳错位，需设计单调最近邻匹配算法以达成亚帧级对齐；此外，多源视频的透视畸变差异迫使手动标定3×3单应矩阵，且需对每对视频逐一验证配准质量，最终通过棋盘格视频检查排除了误匹配样本，确保了数据集的时空一致性。

常用场景

经典使用场景

在跨模态视觉感知领域，VidLLVIP数据集为红外与可见光视频的联合建模提供了时空严对齐的基准资源。其最经典的使用场景聚焦于红外-可见光视频融合任务，研究者可直接读取dataset/ir与dataset/vi目录下同名5秒片段，开展像素级或特征级融合算法的训练与评估。此外，该数据集亦广泛用于跨模态视频配准研究，通过利用datamaker/01_align中时间同步但空间未对齐的数据作为输入，并以datamaker/02_warp中的空间配准结果作为真值，可有效衡量配准算法的精度。这一标准化数据范式为多模态视频的时空一致性分析提供了稳健的验证平台。

衍生相关工作

基于VidLLVIP数据集，学术界已衍生出多项具有影响力的经典工作。其中，CMVF（Cross-modal Unregistered Video Fusion）是代表性研究之一，该工作聚焦于面向未配准输入的红外与可见光视频融合问题，利用时空一致性约束有效弥合了跨模态视频在时间偏移与空间畸变上的差异，其论文发表于顶级期刊Information Fusion。此外，该数据集的构建本身是对原始LLVIP图像数据集的重要补充，推动了多模态视觉研究从图像级向视频级的范式迁移。未来，围绕该数据集还可衍生出视频级跨模态目标检测、跟踪以及语义分割等方向，进一步丰富其学术价值与应用生态。

数据集最近研究