DDI-100
收藏arXiv2019-12-25 更新2024-06-21 收录
下载链接:
https://github.com/machineintelligence-laboratory/DDI-100
下载链接
链接失效反馈官方服务:
资源简介:
DDI-100是由莫斯科物理技术学院创建的一个大型合成数据集,基于7000个真实文档页面生成了超过100000张经过增强的图像。数据集包含文本和印章的掩码、文本和字符的边界框及相关标注。该数据集通过多种文本检测和光学字符识别模型验证,显示出高质量的性能。DDI-100适用于文本检测、光学字符识别和印章检测等文档图像分析领域,旨在解决现有数据集规模小、难以比较模型性能的问题。
DDI-100 is a large-scale synthetic dataset developed by the Moscow Institute of Physics and Technology. It generates over 100,000 augmented images based on 7,000 real document pages. This dataset includes masks for text and seals, bounding boxes for text and characters, along with relevant annotations. It has been validated by multiple text detection and optical character recognition (OCR) models, demonstrating high-quality performance. DDI-100 is applicable to document image analysis tasks such as text detection, OCR and seal detection, and aims to address the issues of small-scale existing datasets and the difficulty in comparing model performance.
提供机构:
莫斯科物理技术学院
创建时间:
2019-12-25
搜集汇总
数据集介绍

构建方式
在文档图像分析领域,构建大规模且具有多样性的数据集对于推动文本检测与识别技术至关重要。DDI-100数据集采用半合成方法构建,其基础源自7351份公开领域的真实文档页面,如报告与书籍。通过应用透视变换、背景替换、纹理映射、高斯与运动模糊、色彩梯度添加以及印章叠加等多种几何变形与失真技术,从每份原始文档生成15张增强图像,最终形成超过10万张图像的集合。数据集提供了详细的标注信息,包括文本与印章掩码、文本块边界框及其对应注释,并以pickle格式存储,确保了标注的精确性与可扩展性。
特点
DDI-100数据集在文档图像处理领域展现出显著特点。其规模远超现有同类数据集,包含超过10万张图像,且基于真实文档内容,涵盖了多语言文本实例及印章、表格、图表等文档特有元素。数据集通过合成失真模拟了智能手机拍摄文档时常见的低质量条件,如光照不均、运动模糊等,从而增强了模型在真实场景中的鲁棒性。此外,数据集提供了精细的文本与字符级标注,支持文本检测、光学字符识别及印章检测等多任务研究,为模型训练与评估提供了全面且高质量的基准。
使用方法
DDI-100数据集适用于文档图像分析中的多项研究任务。在文本检测方面,可利用其提供的文本边界框标注训练或评估检测模型,如U-net、EAST等架构。对于光学字符识别任务,数据集的字符级注释支持端到端识别模型的训练,例如基于神经机器翻译的方法。数据集已按70%训练集与30%验证集划分,确保每份文档在两组中均匀分布。研究人员可直接下载数据集文件,利用标注信息进行模型训练,并通过在真实数据上的微调验证模型泛化能力,从而推动文档分析技术的进步。
背景与挑战
背景概述
在文档图像分析领域,文本检测与光学字符识别始终是核心研究议题,然而大规模、高质量的标注数据长期匮乏。DDI-100数据集由莫斯科物理技术学院的研究团队于近年推出,旨在应对这一困境。该数据集基于七千余份真实文档页面,通过合成技术生成超过十万张经过几何变形与多种失真处理的图像,涵盖了多语言文本、印章、表格等文档特有元素。其创建不仅显著降低了相关研究的入门门槛,还为模型性能的标准化评估提供了坚实基础,有力推动了文档图像处理技术的进步。
当前挑战
DDI-100数据集致力于解决文档图像中文本检测与识别的共性难题,其核心挑战在于模型需在复杂背景、透视变形、模糊及光照变化等合成失真条件下,精准定位并识别多尺度、多语言的文本区域。在构建过程中,研究团队面临两大挑战:一是如何确保合成图像的多样性与真实性,需精心设计包括透视变换、背景替换、运动模糊等十余种失真组合;二是标注工作的可扩展性,需为海量图像提供文本边界框、字符位置及印章掩码等多层次精细标注,同时保持标注的一致性与准确性。
常用场景
经典使用场景
在文档图像分析领域,DDI-100数据集常被用于文本检测与光学字符识别任务的模型训练与评估。该数据集通过合成方法生成了超过十万张带有多种几何变形和失真的文档图像,模拟了真实世界中因拍摄条件不佳导致的图像质量问题。研究者利用其丰富的标注信息,包括文本边界框和字符位置,能够有效训练深度学习模型,提升在复杂文档场景下的文本定位与识别精度。
实际应用
在实际应用中,DDI-100数据集支持了自动化文档处理系统的开发,如智能办公中的文档数字化、档案管理和移动端文档扫描应用。其模拟的失真图像涵盖了光照不均、运动模糊和透视变换等常见问题,有助于训练出鲁棒性强的模型,提升在真实场景如智能手机拍摄文档时的文本提取准确率。这为金融、法律和教育等行业的高效信息检索与流程自动化提供了技术基础。
衍生相关工作
基于DDI-100数据集,衍生了一系列经典研究工作,主要集中在改进文本检测与识别模型上。例如,研究者利用该数据集训练了U-Net架构的文本检测模型,在精度和召回率上超越了EAST和CTPN等现有方法。此外,该数据集还促进了端到端神经机器翻译模型在OCR任务中的应用,通过预训练策略显著提升了小规模真实数据上的性能,为后续文档分析模型的迁移学习与优化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



