ICDAR 2017 Competition SmartDoc-reconstruction
收藏github2020-10-14 更新2024-05-31 收录
下载链接:
https://github.com/smartdoc2017-competition/dataset_creation
下载链接
链接失效反馈官方服务:
资源简介:
本数据集用于ICDAR 2017 Competition SmartDoc-reconstruction,包含生成新数据元素的流程和工具。数据集包括源文档的PDF格式选择、图像和视频的处理,以及最终的训练和测试数据生成。
This dataset is designed for the ICDAR 2017 Competition SmartDoc-reconstruction, encompassing the processes and tools for generating new data elements. The dataset includes the selection of source documents in PDF format, the processing of images and videos, as well as the generation of final training and testing data.
创建时间:
2017-03-28
原始信息汇总
数据集概述
数据集名称
ICDAR 2017 Competition SmartDoc-reconstruction
工具与软件
- pdftk: PDF Toolkit
- convert: ImageMagick
- ffmpeg: FFmpeg video converter
- python: Python 2.7+
- OpenCV: Open Computer Vision library v2.8+ (v3.x not supported)
- create_reference.py: custom Python script provided with this package
数据处理步骤
- 选择源文档,理想情况下为PDF格式。
- 将源PDF文件光栅化或使用高质量设备扫描文档。
- 最终确定地面实况图像,确保PNG图像正确裁剪,必要时转换颜色空间至sRGB。
- 录制视频以模拟文档的视频捕获。
- 理想情况下,在相同条件下拍摄几张照片以比较获取场景。
- 从视频中移除声音。
- 使用地面实况生成任务数据:识别参考帧并提供对象重建在此帧内的坐标。
数据集文件描述
- ground_truth.png
- 描述: 理想图像,仅包含在训练/演示数据集中。
- 格式: PNG,3通道(RGB),8位/通道,sRGB颜色空间。
- input.mp4
- 描述: 应通过方法处理以尽可能接近
ground_truth.png的视频流。 - 格式: 无音频流,1视频流,mpeg4容器,H264编码,yuv420p颜色格式。
- 描述: 应通过方法处理以尽可能接近
- reference_frame_NN_dewarped.png
- 描述: 与地面实况图像相同形状的图像,用于确定必须生成的图像的确切形状。
- 格式: 与
ground_truth.png相同。
- reference_frame_NN_extracted.png
- 描述: 从视频输入中提取的与“解扭曲”版本相同的帧。
- 格式: 与
ground_truth.png相同。
- reference_frame_NN_extracted_viz.png
- 描述: 与
reference_frame_NN_extracted.png相同,但带有对象跟踪轮廓的可视化。 - 格式: 与
ground_truth.png相同。
- 描述: 与
- task_data.json
- 描述: 包含重要坐标和形状的易于解析的文件。
- 格式: JSON文件。
数据集结构
数据集包含多个样本,每个样本目录下包含以下文件:
- ground-truth.png
- input.mp4
- reference_frame_NN_dewarped.png
- reference_frame_NN_extracted.png
- reference_frame_NN_extracted_viz.png
- sample.json
搜集汇总
数据集介绍

构建方式
ICDAR 2017 Competition SmartDoc-reconstruction数据集的构建过程体现了高度的系统性和精确性。首先,从数字源中选择PDF格式的文档,确保无版权问题且不包含个人信息。随后,通过高质量设备扫描或使用PDF工具将文档分页,并转换为300 DPI的PNG格式图像。接着,通过视频采集模拟文档的视频捕捉过程,并移除音频以简化处理。最后,利用自定义Python脚本生成参考帧和任务数据,确保数据集的完整性和可用性。
特点
该数据集的特点在于其多样性和实用性。数据集包含高质量的PNG图像和MP4视频,图像采用sRGB色彩空间,确保色彩一致性。视频格式为H264编码,无音频流,便于处理。此外,数据集提供了详细的参考帧和任务数据,包括目标图像形状、输入视频帧形状以及对象在参考帧中的坐标,为文档重建任务提供了全面的支持。
使用方法
使用该数据集时,首先需通过提供的Python脚本生成参考帧和任务数据。脚本会自动识别参考帧并提供对象在帧中的坐标,用户需根据提示保存并退出。生成的文件包括参考帧的变形图像、提取图像及其可视化版本,以及包含关键坐标和形状信息的JSON文件。这些文件为文档重建任务提供了详细的数据支持,用户可根据任务需求进行进一步处理和分析。
背景与挑战
背景概述
ICDAR 2017 Competition SmartDoc-reconstruction数据集由ICDAR(国际文档分析与识别会议)于2017年推出,旨在推动文档图像处理领域的研究。该数据集的核心研究问题在于如何从视频流中重建高质量的文档图像,特别是在非理想条件下(如光照不均、视角扭曲等)进行文档的数字化重建。数据集由多个研究机构合作构建,主要应用于文档分析、计算机视觉和图像处理领域。其影响力在于为文档重建任务提供了一个标准化的基准,促进了相关算法的发展与评估。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,文档重建任务本身具有较高的复杂性,尤其是在视频流中捕捉到的文档图像可能受到多种干扰因素的影响,如光照变化、透视变形和运动模糊等,这些因素增加了重建的难度。其次,在数据集的构建过程中,研究人员需要确保文档的版权和隐私问题得到妥善处理,同时还要保证生成的数据具有高质量和一致性。此外,视频数据的采集和后期处理(如去噪、去扭曲等)也带来了技术上的挑战,要求研究人员具备较高的图像处理和计算机视觉技术能力。
常用场景
经典使用场景
ICDAR 2017 Competition SmartDoc-reconstruction 数据集主要用于文档图像处理和重建领域的研究。该数据集通过提供高质量的文档图像和视频流,支持研究人员开发和测试文档重建算法。经典使用场景包括文档图像的几何校正、透视变换的逆变换以及文档内容的精确提取。这些任务在文档数字化和自动化处理中具有重要意义。
解决学术问题
该数据集解决了文档图像处理中的多个关键学术问题,特别是文档图像的几何失真校正和内容重建。通过提供精确的参考图像和视频流,研究人员能够验证和优化其算法的准确性。此外,数据集还支持文档图像的多模态处理研究,如图像与视频的联合分析,推动了文档处理技术的进一步发展。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,研究人员开发了基于深度学习的文档图像校正算法,显著提高了文档重建的精度和效率。此外,该数据集还催生了多模态文档处理技术的研究,如图像与视频的联合分析,进一步推动了文档处理技术的创新和应用。
以上内容由遇见数据集搜集并总结生成



