naver-clova-ix/synthdog-en

Name: naver-clova-ix/synthdog-en
Creator: naver-clova-ix
Published: 2024-01-31 23:56:41
License: 暂无描述

Hugging Face2024-01-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/naver-clova-ix/synthdog-en

下载链接

链接失效反馈

官方服务：

资源简介：

Donut 🍩是一个无需OCR预处理的文档理解Transformer模型，该模型使用由SynthDoG生成的多语言数据集进行训练，包括英语、中文、日语和韩语，每个语言版本的数据集大小为0.5M。

Donut 🍩 is an OCR-free document understanding Transformer model. It is trained on a multilingual dataset generated by SynthDoG, covering English, Chinese, Japanese and Korean, with each language variant of the dataset having a size of 0.5M.

提供机构：

naver-clova-ix

原始信息汇总

数据集概述

数据集名称

SynthDoG datasets

数据集描述

该数据集是为Donut模型（OCR-Free Document Understanding Transformer）开发的，该模型在ECCV 2022上发表。

数据集版本

synthdog-en: 英语，0.5M。
synthdog-zh: 中文，0.5M。
synthdog-ja: 日语，0.5M。
synthdog-ko: 韩语，0.5M。

数据集生成

使用SynthDoG工具生成，详细信息可参考./synthdog/README.md。

引用信息

引用格式： bibtex @inproceedings{kim2022donut, title = {OCR-Free Document Understanding Transformer}, author = {Kim, Geewook and Hong, Teakgyu and Yim, Moonbin and Nam, JeongYeon and Park, Jinyoung and Yim, Jinyeong and Hwang, Wonseok and Yun, Sangdoo and Han, Dongyoon and Park, Seunghyun}, booktitle = {European Conference on Computer Vision (ECCV)}, year = {2022} }

搜集汇总

数据集介绍

构建方式

naver-clova-ix/synthdog-en数据集，作为OCR-Free Document Understanding Transformer研究项目的一部分，其构建方法是利用SynthDoG生成合成数据集。该数据集通过模拟文档图像，生成包含英语文本的0.5M个样本，旨在为文档理解任务提供高质量的训练资源。

特点

该数据集的特点在于其合成性质，避免了传统数据集中因OCR转换带来的误差。它提供了丰富的文本布局和样式，能够有效模拟真实世界中的文档图像，这对于训练和评估文档理解模型具有重要意义。

使用方法

使用naver-clova-ix/synthdog-en数据集，用户可以从HuggingFace的存储库中直接下载。数据集可以用于训练文档理解模型，特别是对于需要处理文本识别和布局分析的任务。用户应参考相关文献和代码库，以正确地集成和使用该数据集。

背景与挑战

背景概述

在光学字符识别（OCR）技术飞速发展的当下，naver-clova-ix/synthdog-en数据集应运而生，该数据集由Clova AI团队于2022年开发，并在ECCV会议上提出。该数据集旨在推动文档理解领域的变革，通过合成文档图像来训练OCR-Free Document Understanding Transformer（Donut），其核心研究问题是实现无需OCR步骤直接理解文档内容的技术，对文档分析领域产生了深远影响。

当前挑战

该数据集在构建过程中面临了两大挑战：一是生成高质量的合成文档图像，需考虑多样化的字体、布局以及图像噪声等因素；二是确保生成的数据集能够在无OCR预处理的情况下，有效地训练文档理解模型，解决传统OCR在复杂文档场景下的局限性。

常用场景

经典使用场景

在文档理解研究领域，naver-clova-ix/synthdog-en数据集以其创新的合成文档特性，成为OCR-free文本识别任务的重要资源。该数据集通过模拟真实场景中的文档样式，为模型训练提供了丰富的文本与背景组合，从而助力研究者深入探索无需光学字符识别的文档理解模型。

解决学术问题

该数据集解决了传统文本识别中对光学字符识别的依赖问题，降低了处理复杂文档时的误差率。其提供的多样化文本样本，为学术研究带来了突破传统限制的可能性，极大推动了文档理解技术的发展。

衍生相关工作

基于naver-clova-ix/synthdog-en数据集的研究成果，已经衍生出一系列相关的工作，如Donut模型的提出，使得文档理解变得更加高效，为OCR-free文档处理领域贡献了重要的研究方法和实验数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集