five

naver-clova-ix/synthdog-en

收藏
Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/naver-clova-ix/synthdog-en
下载链接
链接失效反馈
官方服务:
资源简介:
Donut 🍩是一个无需OCR预处理的文档理解Transformer模型,该模型使用由SynthDoG生成的多语言数据集进行训练,包括英语、中文、日语和韩语,每个语言版本的数据集大小为0.5M。

Donut 🍩 is an OCR-free document understanding Transformer model. It is trained on a multilingual dataset generated by SynthDoG, covering English, Chinese, Japanese and Korean, with each language variant of the dataset having a size of 0.5M.
提供机构:
naver-clova-ix
原始信息汇总

数据集概述

数据集名称

  • SynthDoG datasets

数据集描述

  • 该数据集是为Donut模型(OCR-Free Document Understanding Transformer)开发的,该模型在ECCV 2022上发表。

数据集版本

  • synthdog-en: 英语,0.5M。
  • synthdog-zh: 中文,0.5M。
  • synthdog-ja: 日语,0.5M。
  • synthdog-ko: 韩语,0.5M。

数据集生成

  • 使用SynthDoG工具生成,详细信息可参考./synthdog/README.md

引用信息

  • 引用格式: bibtex @inproceedings{kim2022donut, title = {OCR-Free Document Understanding Transformer}, author = {Kim, Geewook and Hong, Teakgyu and Yim, Moonbin and Nam, JeongYeon and Park, Jinyoung and Yim, Jinyeong and Hwang, Wonseok and Yun, Sangdoo and Han, Dongyoon and Park, Seunghyun}, booktitle = {European Conference on Computer Vision (ECCV)}, year = {2022} }
搜集汇总
数据集介绍
main_image_url
构建方式
naver-clova-ix/synthdog-en数据集,作为OCR-Free Document Understanding Transformer研究项目的一部分,其构建方法是利用SynthDoG生成合成数据集。该数据集通过模拟文档图像,生成包含英语文本的0.5M个样本,旨在为文档理解任务提供高质量的训练资源。
特点
该数据集的特点在于其合成性质,避免了传统数据集中因OCR转换带来的误差。它提供了丰富的文本布局和样式,能够有效模拟真实世界中的文档图像,这对于训练和评估文档理解模型具有重要意义。
使用方法
使用naver-clova-ix/synthdog-en数据集,用户可以从HuggingFace的存储库中直接下载。数据集可以用于训练文档理解模型,特别是对于需要处理文本识别和布局分析的任务。用户应参考相关文献和代码库,以正确地集成和使用该数据集。
背景与挑战
背景概述
在光学字符识别(OCR)技术飞速发展的当下,naver-clova-ix/synthdog-en数据集应运而生,该数据集由Clova AI团队于2022年开发,并在ECCV会议上提出。该数据集旨在推动文档理解领域的变革,通过合成文档图像来训练OCR-Free Document Understanding Transformer(Donut),其核心研究问题是实现无需OCR步骤直接理解文档内容的技术,对文档分析领域产生了深远影响。
当前挑战
该数据集在构建过程中面临了两大挑战:一是生成高质量的合成文档图像,需考虑多样化的字体、布局以及图像噪声等因素;二是确保生成的数据集能够在无OCR预处理的情况下,有效地训练文档理解模型,解决传统OCR在复杂文档场景下的局限性。
常用场景
经典使用场景
在文档理解研究领域,naver-clova-ix/synthdog-en数据集以其创新的合成文档特性,成为OCR-free文本识别任务的重要资源。该数据集通过模拟真实场景中的文档样式,为模型训练提供了丰富的文本与背景组合,从而助力研究者深入探索无需光学字符识别的文档理解模型。
解决学术问题
该数据集解决了传统文本识别中对光学字符识别的依赖问题,降低了处理复杂文档时的误差率。其提供的多样化文本样本,为学术研究带来了突破传统限制的可能性,极大推动了文档理解技术的发展。
衍生相关工作
基于naver-clova-ix/synthdog-en数据集的研究成果,已经衍生出一系列相关的工作,如Donut模型的提出,使得文档理解变得更加高效,为OCR-free文档处理领域贡献了重要的研究方法和实验数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作