SmartDoc 2015 - Challenge 1 Dataset|文档图像处理数据集|智能手机应用数据集
收藏github2024-04-04 更新2024-05-31 收录
下载链接:
https://github.com/jchazalon/smartdoc15-ch1-dataset
下载链接
链接失效反馈资源简介:
SmartDoc 2015 - Challenge 1数据集最初是为SmartDoc 2015竞赛创建的,专注于使用智能手机评估文档图像采集方法。挑战1特别包括在智能手机预览流中提取的视频帧中检测和分割文档区域。该数据集包含来自公共数据库的六种不同文档类型,每种类型选择五个文档图像,涵盖不同的文档布局方案和内容。数据集包括150个视频片段,约24,000帧,每帧都标注了文档位置的四边形坐标。
The SmartDoc 2015 - Challenge 1 dataset was originally created for the SmartDoc 2015 competition, focusing on evaluating document image acquisition methods using smartphones. Challenge 1 specifically involves detecting and segmenting document regions in video frames extracted from smartphone preview streams. The dataset comprises six different document types selected from public databases, with five document images chosen for each type, covering various document layout schemes and contents. It includes 150 video clips, approximately 24,000 frames, each annotated with quadrilateral coordinates indicating the document's location.
创建时间:
2018-03-05
原始信息汇总
SmartDoc 2015 - Challenge 1 Dataset 概述
数据集描述
SmartDoc 2015 - Challenge 1 数据集是为 SmartDoc 2015 竞赛创建的,专注于使用智能手机评估文档图像采集方法。挑战1特别关注于从智能手机预览流中提取的视频帧中检测和分割文档区域。
数据集内容
- 文档模型:数据集包含来自公共数据库的六种不同文档类型,每种类型选择五张文档图像,涵盖不同的文档布局方案和内容(完全文本或高图形内容)。
- 视频录制:使用Google Nexus 7平板电脑手动捕捉,每个文档录制约10秒的视频,共5种不同的背景场景。视频以Full HD 1920x1080分辨率录制,帧率可变。
- 视频和模型图像:数据库包含150个视频片段,约24,000帧。同时提供模型图像以供研究人员使用。
数据集任务
- 分割:输入为视频帧,输出为文档图像在每帧中的四个角点坐标(左上,左下,右下,右上)。评估通过计算预期文档区域与找到区域之间的交并比(IoU)进行。
- 模型分类:输入为视频帧,输出为每帧中表示的文档模型标识符。共有30个模型。
- 模型类型分类:输入为视频帧,输出为每帧中表示的文档模型类型标识符。共有6种模型类型。
数据集下载
- 下载方式:
- 使用Python包装器:https://github.com/jchazalon/smartdoc15-ch1-pywrapper
- 直接下载
frames.tar.gz和models.tar.gz文件:https://github.com/jchazalon/smartdoc15-ch1-dataset/releases
数据集版本
- 版本号:数据集从版本2.0.0开始,与原始版本有显著差异。版本号遵循MAJOR.MINOR.PATCH格式,根据数据集内容的变更进行更新。
数据集结构
frames.tar.gz 档案
- 文件结构:包含视频帧及其元数据,每个背景场景下的每个模型文件夹中包含一系列JPEG图像。
- 元数据文件:
metadata.csv.gz,描述每个视频帧的详细信息,包括背景名称、模型名称、图像路径等。
models.tar.gz 档案
- 文件结构:包含模型图像及其元数据,分为五个不同的类别,每个类别下包含30个文档的PNG或JPG图像。
- 元数据文件:
metadata.csv.gz,描述每个模型图像的详细信息,包括模型类别、模型名称、图像路径等。
数据集使用建议
- Python包装器:推荐使用Python包装器以简化数据加载和处理。
- 模型图像使用:推荐使用
05-corrected-nexus-scaled33类别中的图像,如果需要使用局部描述符匹配文档模型与帧中的表示。
此数据集适用于文档图像处理和机器学习领域的研究和开发。
AI搜集汇总
数据集介绍

构建方式
SmartDoc 2015 - Challenge 1 数据集的构建过程体现了对文档图像获取技术的高度关注。该数据集通过选取六种不同类型的文档,每种类型包含五张图像,共计三十个文档模型。这些文档被打印在A4纸上,并使用Google Nexus 7平板进行视频录制。每个文档在五种不同的背景场景下被录制,每个视频片段大约持续10秒,分辨率达到Full HD 1920x1080,帧率可变。视频录制过程中,手持平板并移动,使得视频帧中包含了真实的失真效果,如聚焦模糊、运动模糊、透视变化、光照变化以及文档页面的部分遮挡。最终,数据集包含150个视频片段,约24,000帧图像,每帧图像均标注了文档位置的四边形坐标。
特点
SmartDoc 2015 - Challenge 1 数据集的特点在于其多样性和真实性。数据集涵盖了六种不同类型的文档,每种类型包含五个实例,确保了文档布局和内容的多样性。视频帧中包含了多种真实场景下的失真效果,如聚焦模糊、运动模糊、透视变化和光照变化,这些都为算法测试提供了丰富的挑战。此外,数据集提供了详细的元数据,包括背景名称、模型名称、模型类型、图像路径以及每帧图像中文档位置的精确坐标,这些信息为算法的训练和评估提供了坚实的基础。
使用方法
SmartDoc 2015 - Challenge 1 数据集的使用方法灵活多样,适用于多种任务。首先,数据集可用于文档区域的分割任务,输入为视频帧,输出为每帧图像中文档区域的四个角点坐标。其次,数据集支持文档模型的分类任务,输入为视频帧,输出为每帧图像中代表的文档模型标识符。此外,数据集还可用于文档模型类型的分类任务,输入为视频帧,输出为每帧图像中代表的文档模型类型标识符。为了方便使用,数据集提供了Python封装器,用户可以通过该封装器轻松加载数据,并参考封装器的文档进行算法测试。
背景与挑战
背景概述
SmartDoc 2015 - Challenge 1 数据集由Jean-Christophe Burie等研究人员于2015年创建,旨在评估智能手机在文档图像采集中的应用效果。该数据集特别关注于从智能手机预览流中提取的视频帧中检测和分割文档区域。数据集包含六种不同类型的文档,每种文档选取五张图像,并通过Google Nexus 7平板电脑进行拍摄,生成了150个视频片段,约24,000帧图像。这些视频帧涵盖了多种背景场景,并包含了手持拍摄时常见的失真,如对焦模糊、运动模糊、透视变化、光照变化以及部分遮挡。该数据集为文档图像处理领域的研究提供了丰富的实验材料,并在国际文档分析与识别会议(ICDAR)上得到了广泛应用。
当前挑战
SmartDoc 2015 - Challenge 1 数据集在解决文档图像分割问题时面临多重挑战。首先,由于视频帧是通过手持设备拍摄的,图像中普遍存在对焦模糊、运动模糊和透视失真等问题,这增加了文档区域检测和分割的难度。其次,数据集中的文档类型多样,布局和内容差异显著,从纯文本到高图形内容不等,这对模型的泛化能力提出了更高要求。此外,数据集的构建过程中,研究人员需要手动标注每一帧中文档的四角坐标,这一过程不仅耗时,还容易引入人为误差。尽管数据集提供了丰富的背景场景和文档类型,但其不平衡的样本分布也为模型分类任务带来了额外的挑战。
常用场景
经典使用场景
SmartDoc 2015 - Challenge 1 数据集在文档图像处理领域具有重要应用,尤其是在智能手机拍摄文档的场景中。该数据集主要用于评估文档图像获取方法,特别是在视频帧中检测和分割文档区域的任务。通过提供包含不同背景、光照条件和文档类型的视频帧,数据集能够模拟真实世界中的复杂环境,帮助研究人员开发和测试文档分割算法。
实际应用
在实际应用中,SmartDoc 2015 - Challenge 1 数据集为智能手机文档扫描和OCR技术的发展提供了重要支持。通过模拟真实拍摄环境,数据集能够帮助开发更高效的文档扫描应用,提升用户在移动设备上处理文档的体验。此外,该数据集还可用于智能办公、文档管理系统等领域,推动自动化文档处理技术的进步。
衍生相关工作
基于SmartDoc 2015 - Challenge 1 数据集,许多经典研究工作得以展开。例如,研究人员开发了多种文档分割算法,利用深度学习技术提升文档区域的检测精度。此外,该数据集还催生了文档分类和类型识别的新方法,推动了文档分析领域的算法创新。这些工作不仅验证了数据集的有效性,也为后续研究提供了宝贵的参考。
以上内容由AI搜集并总结生成
