five

naver-clova-ix/synthdog-ja

收藏
Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/naver-clova-ix/synthdog-ja
下载链接
链接失效反馈
官方服务:
资源简介:
SynthDoG生成的数据集包括四个不同语言的版本:英文(synthdog-en)、中文(synthdog-zh)、日文(synthdog-ja)和韩文(synthdog-ko),每个数据集包含50万个样本。这些数据集用于OCR-Free文档理解任务,旨在通过合成数据提高模型在文档理解方面的性能。
提供机构:
naver-clova-ix
原始信息汇总

数据集概述

数据集名称

  • SynthDoG datasets

数据集描述

  • SynthDoG生成的数据集,用于OCR-Free文档理解。

数据集版本

  • 英语 (synthdog-en): 0.5M
  • 中文 (synthdog-zh): 0.5M
  • 日语 (synthdog-ja): 0.5M
  • 韩语 (synthdog-ko): 0.5M

数据集链接

生成工具

  • SynthDoG

引用信息

bibtex @inproceedings{kim2022donut, title = {OCR-Free Document Understanding Transformer}, author = {Kim, Geewook and Hong, Teakgyu and Yim, Moonbin and Nam, JeongYeon and Park, Jinyoung and Yim, Jinyeong and Hwang, Wonseok and Yun, Sangdoo and Han, Dongyoon and Park, Seunghyun}, booktitle = {European Conference on Computer Vision (ECCV)}, year = {2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作