MIDV-500

arXiv2025-09-30 收录

下载链接：

https://github.com/fcakyon/midv500

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用移动设备拍摄的不同文档图像，这些图像通常具有投影变形。数据集分为训练和测试两部分，其中训练部分包含30种文档类型，测试部分包含20种，在应用神经网络之前，所有图像都被缩放到统一的宽度，宽度为400像素。该数据集的任务是进行消失点检测。

This dataset contains various document images captured with mobile devices, which typically suffer from perspective distortion. The dataset is split into training and test subsets, where the training subset covers 30 document categories while the test subset includes 20 categories. Prior to applying neural networks, all images are resized to a uniform width of 400 pixels. The task of this dataset is vanishing point detection.

搜集汇总

数据集介绍

构建方式

MIDV-500数据集的构建方式采用了50种不同类型的身份证明文件，包括身份证、护照、驾驶执照等，共录制了500个视频片段。每个文件类型都在5种不同的条件下，使用两款移动设备（iPhone 5和Samsung Galaxy S3）进行了录制。这5种条件分别是：桌面简单场景、键盘场景、手持场景、部分遮挡场景和杂乱场景。每个视频至少持续3秒，前3秒以每秒10帧的频率分割。所有捕获的帧都具有相同的分辨率1080×1920px。数据集中还提供了每种文件类型的原始图像。

使用方法

使用MIDV-500数据集进行身份证明文件分析和识别的研究时，研究人员可以参考数据集中的地面真实信息，评估和比较不同的身份证明文件分析方法。数据集中的视频片段可以用于训练和测试各种计算机视觉和文档分析方法，包括人脸检测、文本行识别和文档字段数据提取等。此外，数据集中的地面真实信息还可以用于评估算法的鲁棒性，即算法在面对各种失真时的表现。研究人员可以使用数据集中的视频片段进行端到端的文档识别系统的评估，例如Smart IDReader系统。

背景与挑战

背景概述

MIDV-500数据集是针对移动设备上身份文档分析和识别的专门数据集，由Arlazarov V.V.、Bulatov K.、Chernov T.等研究人员于2019年创建。该数据集旨在解决身份文档分析和识别领域缺乏公开数据集的问题，包含500个视频片段，涵盖50种不同类型的身份文档，并附带地面实况数据，以便于在广泛的文档分析问题中进行研究。MIDV-500数据集的创建，为身份文档识别领域的研究提供了重要的基础资源，对推动相关技术的发展产生了深远的影响。

当前挑战

MIDV-500数据集的创建和利用面临着一些挑战。首先，身份文档包含敏感个人信息，存储和处理这些信息存在安全隐患，且人们可能不愿意分享自己的个人信息。其次，身份文档种类繁多，且稀有，数据收集成本高。此外，现有的公开数据集对于身份文档分析和识别的子任务有所帮助，但对于整个身份文档分析和识别的流程来说，这些数据集仍然不足。最后，使用视频流进行识别虽然能够提高信息提取的精度，但需要处理更多的图像数据，对算法和计算资源的要求更高。

常用场景

经典使用场景

MIDV-500数据集，全称为Mobile Identity Document Video dataset，专为移动设备上的身份文件分析和识别而设计。它由50种不同类型的身份文件构成的500个视频剪辑组成，每个文件类型包含10个视频，每种文件类型都涵盖了5种不同的拍摄条件，并使用两种不同的移动设备进行录制。该数据集包含真实场景中的身份文件视频，以及相应的标注信息，如文档边界、文本字段值、人脸位置等。这些标注信息使得该数据集能够用于开发、演示和基准化身份文件分析和识别的完整处理流程，特别是在移动视频流识别方面。

解决学术问题

MIDV-500数据集解决了当前身份文件分析和识别领域中的几个关键问题。首先，它提供了一个公开可用的数据集，使得研究人员可以避免创建和维护自己的数据集，从而降低了研究门槛。其次，它涵盖了多种身份文件类型和拍摄条件，使得研究人员可以评估和比较不同的身份文件分析和识别方法，并研究它们在不同场景下的鲁棒性。此外，该数据集还包含多种语言的文本字段，使得研究人员可以研究跨语言的文本识别问题。

实际应用

MIDV-500数据集在实际应用中具有广泛的应用前景。例如，它可以用于开发移动设备上的身份文件识别系统，帮助用户快速准确地识别和提取身份文件中的信息，如姓名、身份证号、护照号等。此外，该数据集还可以用于开发反欺诈系统，帮助识别伪造的身份文件。此外，该数据集还可以用于开发文档图像质量评估系统，帮助评估和改善移动设备拍摄的身份文件图像质量。

数据集最近研究