naver-clova-ix/synthdog-zh

Name: naver-clova-ix/synthdog-zh
Creator: naver-clova-ix
Published: 2024-01-31 23:56:24
License: 暂无描述

Hugging Face2024-01-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/naver-clova-ix/synthdog-zh

下载链接

链接失效反馈

官方服务：

资源简介：

SynthDoG数据集是一个专为Donut模型设计的文档理解数据集，无需OCR即可进行文档内容分析。该数据集包含英语、中文、日语和韩语四个版本，每个版本约有0.5M的数据量。数据集通过SynthDoG方法生成，旨在支持多语言环境下的文档自动化处理。

The SynthDoG dataset is a document understanding dataset specifically tailored for the Donut model, enabling document content analysis without relying on OCR. It comprises four language versions: English, Chinese, Japanese, and Korean, with approximately 0.5 million samples per version. Generated via the SynthDoG method, this dataset aims to facilitate automated document processing in multilingual scenarios.

提供机构：

naver-clova-ix

原始信息汇总

数据集概述

数据集名称

SynthDoG datasets

数据集描述

该数据集由Donut项目提供，用于OCR-Free文档理解，相关研究发表于ECCV 2022。

数据集内容

包含四种语言的合成数据集，每个语言数据集大小为0.5M：
- synthdog-en: 英语
- synthdog-zh: 中文
- synthdog-ja: 日语
- synthdog-ko: 韩语

数据集生成

数据集通过SynthDoG生成，详细生成方法参考./synthdog/README.md文件。

引用信息

引用格式如下： bibtex @inproceedings{kim2022donut, title = {OCR-Free Document Understanding Transformer}, author = {Kim, Geewook and Hong, Teakgyu and Yim, Moonbin and Nam, JeongYeon and Park, Jinyoung and Yim, Jinyeong and Hwang, Wonseok and Yun, Sangdoo and Han, Dongyoon and Park, Seunghyun}, booktitle = {European Conference on Computer Vision (ECCV)}, year = {2022} }

搜集汇总

数据集介绍

构建方式

naver-clova-ix/synthdog-zh数据集的构建是基于SynthDoG技术，该技术生成具有真实文本排布和样式的高质量合成图像。通过对多种文本样式和布局的模拟，该数据集在保证文本内容可控的同时，实现了视觉上的多样性与复杂性。

特点

该数据集的特点在于其OCR-Free的设计理念，避免了传统OCR数据集在文档理解上的限制。包含500,000个中文合成图像，每一图像都经过精心设计，以适应不同的文档理解任务。其合成文本的真实性和多样性为模型训练提供了丰富的学习素材。

使用方法

使用naver-clova-ix/synthdog-zh数据集，用户可以通过HuggingFace的数据集库直接加载。该数据集支持多种文本识别任务，如文档分类、信息提取等。用户可根据具体任务需求，对数据集进行相应的预处理和模型训练。

背景与挑战

背景概述

naver-clova-ix/synthdog-zh数据集，作为OCR-Free Document Understanding Transformer研究项目的一部分，由Clova AI团队于2022年在ECCV会议上提出。该数据集针对中文文本，包含了50万条合成数据，旨在推动文档理解领域的研究，特别是在无需光学字符识别（OCR）的情况下直接处理文档图像的任务。数据集的核心研究问题是如何在保持高效率的同时，提高文档图像解析的准确性。该数据集对文档理解、自然语言处理以及计算机视觉等领域产生了显著影响，为相关研究提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何生成足够真实且多样化的合成文档图像，以适应不同的文档解析任务；同时，还需要解决在无OCR参与的情况下，如何直接从图像中提取文本信息的问题。此外，数据集的创建还需克服跨语言、跨领域的适应性挑战，确保所生成的合成数据能够在不同语言和文化背景下具有广泛的适用性。

常用场景

经典使用场景

在深度学习领域，尤其是文档理解任务中，SynthDoG数据集以其OCR-Free的特性，被广泛用于训练和评估文档理解模型。该数据集通过模拟合成文档，为研究者提供了一个无OCR错误的文本识别环境，从而使得研究焦点更加集中于文档内容的理解与分析。

实际应用

实际应用中，SynthDoG数据集可用于开发智能文档分析系统，如自动化处理金融报表、法律文件等，提高信息提取的自动化程度和准确性，对于提升工作效率具有重要作用。

衍生相关工作

基于SynthDoG数据集，学术界已经衍生出一系列相关研究工作，如针对不同语言的文档理解模型开发、跨模态信息处理等，这些研究进一步推动了文档理解技术的发展和应用范围的拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集