FANVID

Name: FANVID
Creator: 印度理工学院孟买分校电子工程系
Published: 2025-06-09 06:22:00
License: 暂无描述

arXiv2025-06-09 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/kv1388/FANVID/

下载链接

链接失效反馈

官方服务：

资源简介：

FANVID是一个包含近1463个低分辨率视频片段的数据集，这些视频片段具有63个身份和49个车牌，来自三个英语国家。每个视频都包括干扰人脸和车牌，增加了任务难度和真实性。数据集包含31,096个手动验证的边界框和标签。FANVID定义了两个任务：(1)人脸匹配——检测低分辨率人脸并将它们与高分辨率免冠照片进行匹配；(2)车牌识别——从低分辨率车牌中提取文本，无需预定义数据库。视频是从高分辨率源下采样的，以确保人脸和文本在任何单个帧中都无法识别，从而要求模型利用时间信息。

FANVID is a dataset comprising nearly 1,463 low-resolution video clips, which feature 63 distinct identities and 49 license plates sourced from three English-speaking countries. Each video contains occluded faces and license plates, which elevates task difficulty and enhances the dataset's realism. The dataset includes 31,096 manually verified bounding boxes and annotations. FANVID defines two tasks: (1) Face Matching: detect low-resolution faces and match them with high-resolution ID photos; (2) License Plate Recognition: extract text from low-resolution license plates without relying on a predefined database. The videos are downsampled from high-resolution sources, ensuring that faces and text are unrecognizable in any single frame, thus requiring models to leverage temporal information.

提供机构：

印度理工学院孟买分校电子工程系

创建时间：

2025-06-09

搜集汇总

数据集介绍

构建方式

FANVID数据集的构建基于高分辨率(HR)公开视频资源，通过精心设计的降采样流程模拟真实监控场景的低分辨率(LR)条件。研究团队从YouTube平台筛选了1,463段具有监控特征的原始视频，包括街头场景、安防录像等素材。在标注环节，采用RetinaFace进行人脸检测初标注，ArcFace进行身份特征匹配，并通过SAM2实现车牌区域的跨帧追踪。所有标注均经过人工逐帧校验，确保在极端姿态、遮挡等复杂条件下的标注精度。最终通过双三次插值将视频统一降采样至320×180分辨率，确保单帧图像无法通过肉眼识别，强制模型必须利用时序信息进行识别。

特点

该数据集的核心特点体现在三个方面：真实场景的复杂性模拟、严谨的标注体系以及创新的任务设计。数据集包含63个身份和49个车牌的31,096个手工验证标注框，特别设置了干扰项人脸和车牌以增强现实性。视频素材覆盖三个英语国家，在种族(南亚、东亚、黑人等)、性别和车牌样式(5-9位字符)等方面保持多样性平衡。创新性地定义了跨分辨率人脸匹配和车牌识别两大任务，其中人脸匹配需要将LR视频帧与HR证件照关联，车牌识别则要求在不依赖外部数据库的情况下完成LR视频中的字符提取。数据集还提供了独特的评估指标FaceRecBox和TextRecBox，兼顾检测框精度与识别准确率。

使用方法

使用FANVID数据集需要遵循其特定的任务框架和技术路线。对于人脸匹配任务，建议采用视频超分辨率(VSR)预处理结合时序特征聚合的方案，如基线方法中采用的RCDM超分辨率模型配合RetinaFace检测器和ArcFace特征提取器。车牌识别任务推荐使用YOLOv10进行检测定位，通过SAM2实现跨帧追踪，最后用EasyOCR完成字符识别。数据集以CSV格式提供元数据链接，包含视频URL、帧索引、边界框坐标等字段，用户需自行通过配套脚本提取和处理原始视频。评估阶段应严格采用官方指标，特别注意测试集的身份隔离原则——同一身份或车牌不会同时出现在训练和测试集中。为提升结果可靠性，建议进行多次随机初始化的实验，并充分利用提供的标注验证工具进行结果分析。

背景与挑战

背景概述

FANVID数据集由印度理工学院孟买分校的Kavitha Viswanathan等研究人员于2025年提出，旨在解决低分辨率视频中的人脸和车牌识别问题。该数据集包含1,463个低分辨率视频片段（180×320分辨率，20-60 FPS），涵盖63个身份和49个车牌，来自三个英语国家。FANVID通过引入时间上下文信息，弥补了传统静态高分辨率图像数据集的不足，为监控、法医学和自动驾驶等领域的研究提供了重要支持。数据集的构建基于公开的高分辨率视频，经过人工标注和降采样处理，确保了数据的真实性和挑战性。

当前挑战

FANVID数据集面临的挑战主要包括两个方面：1) 领域问题挑战：低分辨率视频中的人脸和车牌识别需要模型能够有效利用时间信息，克服单帧图像质量不足的问题；2) 构建过程挑战：数据集的构建需要处理高分辨率视频的降采样、人工标注的准确性以及多样性的平衡。此外，数据集中包含的干扰项（如其他人脸和车牌）增加了任务的复杂性，要求模型具备更强的鲁棒性和泛化能力。

常用场景

经典使用场景

FANVID数据集在计算机视觉领域被广泛应用于低分辨率视频中的人脸和车牌识别研究。其独特的低分辨率视频序列和丰富的干扰项设计，使得该数据集成为测试模型在复杂环境下性能的理想选择。研究者们利用FANVID评估模型在跨分辨率匹配、时序信息整合以及干扰项抑制等方面的表现，从而推动低分辨率视频识别技术的发展。

解决学术问题

FANVID数据集有效解决了低分辨率视频中目标识别这一关键学术问题。传统的高分辨率静态图像数据集无法模拟真实监控场景中的低分辨率、动态模糊和干扰项等挑战。FANVID通过提供时序连贯的低分辨率视频序列，填补了这一研究空白，为开发能够利用时序信息进行目标识别的算法提供了重要基础。该数据集特别关注身份匹配和文本识别的准确性，推动了跨模态识别和时序建模的研究进展。

衍生相关工作

FANVID数据集催生了一系列关于低分辨率视频识别的重要研究工作。基于该数据集，研究者们开发了多种结合视频超分辨率和目标识别的混合架构，如时空Transformer模型和记忆增强网络。这些工作显著提升了模型在低分辨率条件下的识别性能。同时，该数据集也促进了针对跨模态匹配和时序特征融合的算法创新，为后续的低分辨率视频分析研究奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集