VidLLVIP
收藏VidLLVIP 数据集概述
基本信息
VidLLVIP 是一个非官方处理的红外-可见光配对视频数据集,源自原始 LLVIP 数据集中的原始视频。该数据集提供了时间对齐、空间配准、质量检查后的 5 秒视频对,适用于视频融合、跨模态配准和多模态视频理解等任务。
数据规模与规格
| 项目 | 数值 |
|---|---|
| 来源 | LLVIP 原始红外-可见光视频 |
| 处理的源视频对 | 14 对,编号 01-14 |
| 最终配对片段 | 894 对 |
| 模态 | 红外 (ir) 和可见光 (vi) |
| 片段长度 | 5 秒 |
| 分辨率 | 1280 x 1024 |
| 帧率 | 25 FPS |
| 每片段帧数 | 125 |
| 配对规则 | dataset/ir 和 dataset/vi 下同文件名配对 |
数据格式
最终片段以配对文件形式存储,文件命名格式为:{源视频编号}_{起始秒}_{结束秒}.mp4
例如:01_0000_0005.mp4 表示源视频 01,从 0s 到 5s。
仓库结构
VidLLVIP/ README.md README_zh-CN.md raw/ videos/{ir,vi}/ # 原始LLVIP视频(未对齐) datamaker/ 01_time_align.py # 时间对齐 02_space_align.py # 空间配准 03_checkerboard.py # 棋盘格质量检查视频 04_split_5s_videos.py # 5秒片段生成 requirements.txt matrix/ # 编号01-14的3x3透视矩阵 01_align/ # 时间对齐后的完整视频和时间戳表 02_warp/ # 空间配准后的完整视频 03_ckboard/ # 棋盘格质量检查视频 dataset/ ir/ # 最终红外片段 vi/ # 最终可见光片段 figs/ # README图片
数据处理管线
- 时间对齐:读取帧时间戳,以较短流为基础,使用单调最近帧匹配进行对齐,默认最大时间戳差为
0.08s。 - 空间配准:使用 3x3 透视矩阵将红外帧变换到可见光坐标系,并裁剪至
1280 x 1024。 - 棋盘格质量检查:交替显示红外和可见光块,便于人眼检查边缘连续性和目标对齐质量。
- 分割为 5 秒片段:默认窗口和步长均为
5s,不足5s的尾部被跳过。
建议用途
- 视频融合:使用
dataset/ir和dataset/vi中的同名片段。 - 跨模态配准:使用
datamaker/01_align作为时间对齐但空间未配准的输入,datamaker/02_warp作为配准参考。 - 联合融合与配准:在
datamaker/01_align上训练配准,在datamaker/02_warp或dataset/上训练或评估融合。
下载方式
- Hugging Face: https://huggingface.co/datasets/jianfeng0369/VidLLVIP
- 夸克网盘: https://pan.quark.cn/s/e3abe425aa5f?pwd=E5gv
引用要求
VidLLVIP 源自 LLVIP 数据集,使用时需同时遵循原始 LLVIP 许可协议和引用要求,并引用 VidLLVIP 数据集本身。




